請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

聲音更接近人類,Google文字轉語音AI服務再升級

數位時代

更新於 2018年03月31日03:37 • 發布於 2018年03月30日11:10 • 翁書婷

我們即將進入有圖有聲音,卻不一定有真相的時代了!Google推出文字轉語音(Cloud Text-to-Speech)AI服務,將可以用來合成人聲。

文字轉語音服務,運用物聯網設備溝通、有聲書

Cloud Text-to-Speech服務支援12種語言,並可轉換32種聲音。 即使是複雜的文字內容,例如姓名、日期、時間、地址等,Cloud Text-to-Speech也可以立刻發出準確且道地的發音,使用者可以自己調整音調、語速和音量,還支援包含MP3和WAV等多種音檔格式等。美商思科(Cisco)和電信商Dolphin ONE,成為前期用戶。

這服務三大商業應用。第一,是最重要、最具有前瞻性的應用:與電視、汽車與機器等物聯網設備對話溝通。第二為電話語音服務(Interactive Voice Response,IVR)中心提供語音回應系統,並啟用即時自然語言對話功能。第三將文字格式的新聞文章、書籍等媒體內容,轉為Podcast或有聲書等口語形式。

在測試過程中,使用者在1到5級的平均意見分數(Mean-opinion-score, MOS)量表中,給予新版美式英文WaveNet語音4.1分,其中有超過20%的人認為比標準的人聲更好,超過70%的人肯定能降低人類語言的隔閡。

這次推出的Cloud Text-to-Speech服務,是以DeepMind團隊的WaveNet為基礎。WaveNet是一種原始音檔生成模型,運用WaveNet可以把一系列高保真度的聲音轉化為語音,2016年DeepMind團隊推出了第一版的WaveNet,最近團隊又推出升級版WaveNet,較第一版本模型所生成的原始音頻波形快了1000倍,只需50毫秒即可生成一秒鐘的語音訊息,大幅縮短系統文字轉語音的時間, 更接近和真人對話

提供多元機器學習服務,拉攏新手與專家

不過,文字轉語音API僅是Google眾多雲端機器學習服務之一,Google還提供多元的預先訓練好的機器學習訓練模型,如影像辨識API(Vision API)、翻譯API(Translation API)、語音辨識API(Cloud Speech API)與自然語言API(Natural Language API)等。其中影像辨識API相當受歡迎,如韓國線上購物中心Tmon運用影像辨識API,過濾電子商務網站上的影像。

不過,這些雲端人工智慧API服務,雖然非常容易使用,操作門檻不高,但客製化程度相當有限,因此Google還提供可以高度客製化,建構於TensorFlow的基礎上的Google雲端機器學習服務(Google Cloud Machine Learning)或稱為Cloud ML Engine,讓備有AI人才的企業可以專注於開發最佳的機器學習模型。

Google演算法層面的服務,已然清晰。服務層面廣泛,從機器學習入門新手到專家,提供不同操作門檻與客製化程度的工具,一網打盡。

每日精選科技圈重要消息,歡迎加入《數位時代》LINE@!

查看原始文章

更多科技相關文章

01

2024年星際飛機任務失敗 NASA署長批波音與內部高層

路透社
02

輝達擬砸300億美元投資OpenAI 取代千億美元長期合作

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...