Meta 最新 AI 模型 Seamless 能即時翻譯,還可保留人類說話風格與情感
當你在國外旅遊碰到難以解決的問題時,是否曾想過若能以該國語言自在地與當地人交流該有多好?隨著科技的進步,這個願望馬上就能實現!
日前 Meta 公開他們最新研發的 AI 模型「Seamless Communication」,有助人們更自然、更即時地進行跨語言溝通,將通用語言翻譯工具(Universal Speech Translator, UST)的概念正式落地。
結合 3 種模型,打造能保留情感、即時翻譯的工具
翻譯工具 Seamless 整合 3 種複雜的神經網絡模型,讓它在保留說話者的聲音風格、情感和語調的同時,還能即時翻譯超過 100 種口說和書面語言。
第一種模型是「SeamlessExpressive」,能在翻譯時還原說話者的聲音風格、情感等細節。Meta AI 發布的論文解釋:「儘管現有的翻譯工具能捕捉人們的對話內容,但它們輸出的內容通常不具任何情感,就是一個文字轉語音的機器人。」
第二種模型是「SeamlessStreaming」,能提供僅 2 秒延遲的即時翻譯。研究人員表示,這是全球第一個能如此快速翻譯近 100 種口說和書面語言的大型多語言模型。
最後一種模型「SeamlessM4T v2」則是前兩種模型的基礎。去年它曾以第一版「SeamlessM4T」亮相,今年的升級版提高了文本轉語音的一致性。
研究人員表示:「Seamless 讓我們對 UST 所需的基礎技術有更進一步的了解。 」
公開 Seamless Communication 模型,邀同業一起完善技術
Seamless Communication 有望翻轉人們的溝通表達體驗,包括透過智能眼鏡進行跨語言即時對話、或是自動翻譯線上影片與 podcast。不僅如此,研究人員也認為,它有助消除移民至他國的人的溝通障礙。
為了防止有心人將這項工具用於詐騙,Meta 也推出多項安全措施,像是設計音頻浮水印、和研發能降低輸出有害他人內容的技術等。
目前 Meta 已將 Seamless Communication 公開發布在 Hugging Face 和 Github 上,他們希望其他研究人員能夠一同創建、擴展這項工具,讓它變得更完善、能幫助有需求者跨越語言與文化的障礙。
【推薦閱讀】
*本文開放夥伴轉載,參考資料:《VentureBeat》、Meta,首圖來源:Meta
(責任編輯:鄒家彥)