聲音更接近人類，Google文字轉語音AI服務再升級

我們即將進入有圖有聲音，卻不一定有真相的時代了！Google推出文字轉語音（Cloud Text-to-Speech）AI服務，將可以用來合成人聲。

文字轉語音服務，運用物聯網設備溝通、有聲書

Cloud Text-to-Speech服務支援12種語言，並可轉換32種聲音。即使是複雜的文字內容，例如姓名、日期、時間、地址等，Cloud Text-to-Speech也可以立刻發出準確且道地的發音，使用者可以自己調整音調、語速和音量，還支援包含MP3和WAV等多種音檔格式等。美商思科(Cisco)和電信商Dolphin ONE，成為前期用戶。

這服務三大商業應用。第一，是最重要、最具有前瞻性的應用：與電視、汽車與機器等物聯網設備對話溝通。第二為電話語音服務(Interactive Voice Response,IVR)中心提供語音回應系統，並啟用即時自然語言對話功能。第三將文字格式的新聞文章、書籍等媒體內容，轉為Podcast或有聲書等口語形式。

在測試過程中，使用者在1到5級的平均意見分數(Mean-opinion-score, MOS)量表中，給予新版美式英文WaveNet語音4.1分，其中有超過20%的人認為比標準的人聲更好，超過70%的人肯定能降低人類語言的隔閡。

這次推出的Cloud Text-to-Speech服務，是以DeepMind團隊的WaveNet為基礎。WaveNet是一種原始音檔生成模型，運用WaveNet可以把一系列高保真度的聲音轉化為語音，2016年DeepMind團隊推出了第一版的WaveNet，最近團隊又推出升級版WaveNet，較第一版本模型所生成的原始音頻波形快了1000倍，只需50毫秒即可生成一秒鐘的語音訊息，大幅縮短系統文字轉語音的時間， 更接近和真人對話 。

提供多元機器學習服務，拉攏新手與專家

不過，文字轉語音API僅是Google眾多雲端機器學習服務之一，Google還提供多元的預先訓練好的機器學習訓練模型，如影像辨識API（Vision API）、翻譯API（Translation API）、語音辨識API（Cloud Speech API）與自然語言API（Natural Language API）等。其中影像辨識API相當受歡迎，如韓國線上購物中心Tmon運用影像辨識API，過濾電子商務網站上的影像。

不過，這些雲端人工智慧API服務，雖然非常容易使用，操作門檻不高，但客製化程度相當有限，因此Google還提供可以高度客製化，建構於TensorFlow的基礎上的Google雲端機器學習服務(Google Cloud Machine Learning)或稱為Cloud ML Engine，讓備有AI人才的企業可以專注於開發最佳的機器學習模型。

Google演算法層面的服務，已然清晰。服務層面廣泛，從機器學習入門新手到專家，提供不同操作門檻與客製化程度的工具，一網打盡。

每日精選科技圈重要消息，歡迎加入《數位時代》LINE@！

請更新您的瀏覽器

科技

數位時代

文字轉語音服務，運用物聯網設備溝通、有聲書

提供多元機器學習服務，拉攏新手與專家

更多科技相關文章

2024年星際飛機任務失敗　NASA署長批波音與內部高層

輝達擬砸300億美元投資OpenAI　取代千億美元長期合作

請更新您的瀏覽器啟用Javascript

聲音更接近人類，Google文字轉語音AI服務再升級

數位時代

文字轉語音服務，運用物聯網設備溝通、有聲書

提供多元機器學習服務，拉攏新手與專家

更多科技相關文章

2024年星際飛機任務失敗 NASA署長批波音與內部高層

輝達擬砸300億美元投資OpenAI 取代千億美元長期合作

請更新您的瀏覽器

2024年星際飛機任務失敗　NASA署長批波音與內部高層

輝達擬砸300億美元投資OpenAI　取代千億美元長期合作