請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

機器人講話也能帶感情,文字直接轉成聲音!NVIDIA展示AI語音合成技術成果

數位時代

更新於 2021年09月01日11:08 • 發布於 2021年09月01日11:00

語音應用讓人與人之間的互動有了改變,也讓生活變得更加有趣。NVIDIA深度學習應用研究部門副總裁Bryan Catanzaro表示,NVIDIA一直在思索如何透過AI強化人與電腦的互動,而「語音」技術的強化,就是其中一個重要指標。

五年前Amazon Alexa智慧音箱的出現,重新定義了人與機器互動的方式,可以命令Alexa播放音樂、開冷氣,甚至和Alexa聊天,人們可以透過語音做更多的事情,在科技應用的重要性逐漸增加。

除了讓機器人聽懂人話,NVIDIA表示,下一步就是要賦予機器人帶有「感情」的說話能力,將人機介面帶往更高層次。

AI聲音技術加持,讓機器說話帶有「感情」

而這有賴於表達性語言合成技術,透過對話式人工智慧模型為角色、虛擬助理及個人化數位分身產生聲音。例如透過NVIDIA RAD-TTS技術,使用個人說話的聲音來訓練文字轉語音模型,即能將任何文字提示變成說話者的聲音。

此外,該技術還支援聲音轉換功能,例如影片中是 A 在說話 (甚至是唱歌),觀眾們聽到的卻是 B 的聲音。NVIDIA談到,RAD-TTS設計靈感是將人聲當成一種樂器,使用者便能夠逐幀微調合成聲音的音調、持續時間和能量。

例如應用在電影製作中,導演可錄製自己讀出影片腳本的聲音,接著用 AI 模型將說話內容變成女性旁白者的聲音。導演可以再運用這個基本的旁白內容,像配音員一樣指導 AI 並進行調整,讓合成出來的語音強調特定字眼、修改旁白節奏,以更貼切地表達影片的調性。

不只配音,其中文字轉語音的功能還能用在遊戲、協助聲音機能或語言機能障礙者,或幫助使用者用將自己的聲音翻譯不同語言;甚至還能重現著名歌手的表演,不僅可以配合歌曲旋律,還能配合人聲背後所表達的情感。

表達性語言合成只是NVIDIA Research 團隊在對話式 AI 的其中一項研究,這個領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過 NVIDIA NeMo 工具套件成為開放原始碼,可以在 NGC 容器及其它軟體中心取得,並經最佳化調整,能在 NVIDIA GPU 上高效執行。

不過他也透露,目前AI語音最大挑戰在於延遲性問題,由於機器回應的速度不夠即時,連帶會影響人機互動的感受,讓對話看起來較沒有這麼自然。該公司也正積極努力克服這項技術挑戰,隨著技術的更迭與數據資料的累積、分析,相信這個問題將很快會被解決。

【熱門焦點】

麥當勞APP首度改版!3大功能亮相,點點卡變行動版、免帶卡就能賺積分

取件「得來速」、維修致敬「鼎泰豐」,微星旗艦展服中心下一步要做什麼?

最新9月號雜誌《2021年台灣網紅生態全解析》馬上購:傳送門
「電子雜誌」輕鬆讀:傳送門

責任編輯:錢玉紘

「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多科技相關文章

01

高階晶片25%國安關稅上路 白宮暗示還有進一步動作

路透社
02

研究:暴龍長到最大體型要花40年 比原先認為多15年

路透社
03

澳洲禁令上路滿1個月 社媒停用470萬青少年帳號

路透社
04

Netflix簽全球協議 獨家串流索尼影業院線下檔電影

路透社
05

美國電網運作緩慢 Google:擴充資料中心併網係最大挑戰

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 25

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...