請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 新聞主播「敏熙」幕後團隊揭曉,原來是微軟 Azure AI 語音結合光禾感知 AIGC 共同打造

三嘻行動哇 Yipee!

發布於 2023年10月17日12:40

每日晚間晚間六點十二分左右以及午夜新聞播報國際氣象的民視主播「敏熙」原來是 AI 科技打造,由微軟 Azure AI 語音服務結合光禾感知的 AIGC(AI Generated Content,人工智慧生成內容)技術製作,是台灣首位 AI 生成的虛擬電視新聞主播,同時也是生成式 AI 技術在媒體產業的創新應用。

「敏熙」主播是集結影像、聲音與新聞製播等三方專業技術,由光禾感知生成 AI 虛擬主播影像後,搭配微軟 Azure AI 的語音合成技術產出發音自然、流暢的播報人聲,再借助民視新聞多年新聞製播經驗,以及豐富的新聞播報、訪談節目等高畫質新聞影像資料庫進行形象優化,才打造出專屬的 AI 主播模型。

光禾感知自 2022 年底開始投入 AI 主播製作,透過大量蒐集照片作為訓練原料,以擴散模型(Diffusion model)為技術基礎,訓練出能夠生成動態圖像的模型,完成主播臉孔塑造。

聲音部分則是有賴於微軟 Azure AI 語音服務的 TTS(文字轉語音)及 Viseme 技術。不同於傳統如機械音般的文字轉語音服務,Azure AI 語音服務擁有 140 種語系以上、超過 400 個近似真人發音的預建神經語音模型可以選擇,而且還支援自訂模型,可根據需求調整語音的風格、速度、音調等參數,進而生成貼近真人主播具備情緒及抑揚頓挫的語音。

此外,透過 Viseme 技術能提升虛擬主播嘴型與播報文字精準度。Viseme 技術能夠在說話過程定義臉部及嘴唇、下顎及舌頭等位置,使虛擬主播臉部嘴型與語音的結合呈現更為自然。兩者技術相輔相成不僅能生成嘴型與聲音吻合的 AI 臉部影像,也能進一步實現多國語系主播的可能,敏熙現在已可以進行綜合中文及英文的播報內容。

為了讓播報精準度更加提升,聲音方面微軟藉由結合最新 AI 技術而更加擬真的 TTS 及 Viseme 技術不斷優化,光禾感知則網羅中文、英文、台語、客語等語言的 4K 高畫質新聞影像資料庫,持續訓練全新影像模型,呈現細緻的臉部肌肉紋路,確保整體脣形、聲音及肢體語言更加擬真與自然。

▶ 延伸閱讀

圖片及資料來源:Microsoft 台灣微軟

查看原始文章

更多科技相關文章

01

消息人士:DeepSeek打破慣例 未向輝達等美商展示最新模型

路透社
02

Meta旗下AI大將跳槽OpenAI

路透社
03

第一代電池退役!Gogoro投入10億升級能源網,換電體驗成勝負關鍵

創業小聚
04

三星Galaxy S26新機亮相 AI再進化修圖更強大

卡優新聞網
05

AI疑慮降溫 美國股市收紅

路透社
06

路透:北京藉無人機飛行演練對台作戰

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...