請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

【Google 談人工智慧】有了機器學習後,語言還會是隔閡嗎

T客邦

更新於 2019年02月13日22:02 • 發布於 2017年11月29日07:00 • 洪詩詩

Google 的使命是匯集全球資訊,並且讓所有人都能使用這些資訊,不過要能理解各式資訊,最困難的就是語言隔閡,因此在東京舉辦 #MadeWithAI 亞太區媒體活動請來了 Google 語言研究計畫總經理 Linne Ha 來談談怎麼將 AI 應用到語言翻譯上,進而彌平語言不通的問題。

受惠於智慧型手機的普及,網路人口在最近這幾年高速成長,不過網路上有接近 50% 的內容仍是以英文為主,對於非以英文為母語的人來說,想要獲得資料就多了一道門檻,能讓每個人自在的用自己的原生語言在網路上搜集或提供資料是 Google 的目標,因此在推動語言翻譯或發展上 Google 做了非常多的努力。

【Google 談人工智慧】有了機器學習後,語言還會是隔閡嗎

▲ Google 語言研究計畫總經理 Linne Ha。

推動各種語言上網,統一碼(Unicode)是重點

不同語言要能在網路上流動,最重要的就是該語言要能被閱讀,若是出現亂碼或空白文字就容易成為閱讀或理解的障礙,因此 Google 長期和統一碼(Unicode)聯盟合作,鼓勵更多國家利用統一碼的編碼系統上網,例如 Google 大力鼓勵緬甸不要再使用非統一碼的字型。

有了統一碼這項文字系統後,電腦文字編碼就有了一套標準,下一個挑戰就是要確保自行能正確地被轉為網路或手機上的文字,去年 Google 推出開放的 Noto 字型,可以支援 800 種語言、11 億個文字,可呈現各式各樣的文字。

【Google 談人工智慧】有了機器學習後,語言還會是隔閡嗎

但這樣還不夠,雖然文字能呈現,但卻不是每個人都知道如何輸入文字,因此除了 Gboard 提供 300 多種鍵盤、 97 種手寫系統、語音輸入等方法讓使用者可以依照自己方便的方式來輸入文字。

在開發手寫系統上,Google 也花了一番心力,由於每個人的字跡都不同,因此 Google 導入人工智慧技術,蒐集很多自願者的手寫範本,讓機器學習來辨認文字和書寫風格,進而達到更精確的手寫辨識。語音輸入方面則是透過 GOOG-411 的服務來搜集語音資料,類似我們的查號台,當有人打電話進去問問題查電話,GOOG-411 就會幫忙轉接,在這樣的過程中 Google 建立了大量的語音資料庫範本,英文語音搜集還算滿順利的。不過其他語言就沒這麼容易了,雖然說 Google 有和專門經營文字和語音資料庫的業者合作,但有些語言本身的資料庫就較少,例如廣東話,因此 Google 又開啟了下一階段的任務。

語音搜尋實驗,搜集準確的語音資料

既然缺乏語音資料,Google 就開始想方法來搜集各種語言的語音訊息,比方說 2010 年 Google 推出了荷蘭語的 Word of Mouth 計畫,提供參與實驗的使用者手機來搜集他們和親友間的對話樣本,進而得到準確的語音資料。

有了語音資料之後下個問題則是口音和俗語,關於這方面的資料目前 Google 仍正在努力發展中,不過經過過去這麼長一段時間的努力,到 2012 年之後,語音搜尋已可支援到 50 種語言,Google 也導入了深度神經網路提升語音辨識的準確性,今年則再新增 30 多種的語音輸入,甚至包含了非洲兩種主要語言,斯瓦希里語(Swahili)和阿姆哈拉語(Amharic),對於彌平語言隔閡來說,這是一個重要的里程碑。

怎麼將機器學習應用在語音服務上

既然有了機器學習這項技術,也就意味著 Google 能透過演算以及建構更有效的模型來解決語音辨識問題。

Google 這回用了一個超級低成本的預算(2000 美金)來增加孟加拉語的文字轉語音服務,首先先準備一套麥克風、USB 轉接器和前置聲音放大器,並建立一組便攜式的錄音工作室「ChitChat」讓實驗者可以錄音。

工具有了,下一步就是找來 15 名孟加拉的 Googler,錄製了 2000 多個從維基百科擷取出來的孟加拉語和英語,實驗者每隔 30 分鐘至 60 分鐘就錄製 250 多個句子,平衡的混音成幾個不同的聲音後,再交給 Google 社群投票看看大家最偏好哪一個聲音,最終產出的聲學模型剛好就可以代表平均型的人聲,成功推出了孟加拉語的文字轉語音服務。

除了把更多語言放到網路上,Google 也著手發展方言領域,像是英文就分成美式英文、英式英文、澳洲英文等等,最近 Google 正著手處理新加坡式英語,另外,西班牙語、阿拉伯語也是 Google 努力的方向。

Google 的中文語音什麼時候會有更多突破?

至於台灣人最常用的中文呢?Google 語言研究計畫總經理 Linne Ha 不諱言,中文真的是很有挑戰的語言,比方說中國人說著中文、寫著簡體中文,台灣人說也說著中文、但寫的是繁體中文,香港人寫的也是繁體中文、不過說的是廣東話,繁體中文、簡體中文、廣東話間各有連結但又不盡相似。

過去 Google 是使用「單一語言模式」來處理,比方說台灣人說的中文就套用繁體中文資料庫,香港人說廣東話則套用另外一個繁體中文資料庫,但這樣的語音辨識效果發展有限,近期 Google 嘗試著將相近的語言加進同一個模型中,目前的實驗結果還不錯。

想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@

查看原始文章

更多科技相關文章

01

iPhone 17e閃電上市 3大電信資費同步出爐

卡優新聞網
02

數發部百億AI新創計畫首年成績出爐:5家獲投、6案拍板,百億目標還差多少?

創業小聚
03

英特爾高層人事變動 董事長耶里將退休離任

路透社
04

【獨家】科飛數位完成1.4億元募資,前進日本、越南幫商用車「裝上軟體大腦」

創業小聚
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...