請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

柯 P 語錄、蔡總統文告也收錄,Mozilla 同聲計畫要建構無使用限制的全球最大語音語料庫

科技新報

更新於 2018年07月23日15:06 • 發布於 2018年07月23日14:51

語音助理風行,從矽谷到東亞的中國、日本公司,不少科技公司投入資源進來發展這塊。但對不少新創還是學生研究人員來說,首先第一步遇到的問題是,他們沒有大公司資源,也無法靠一己之力收集所需要的訓練資料。Mozilla 看到這個問題,決定用開放創新 (Open Innovatoin) 方式來收集語音資料。Mozilla 的同聲計畫 (Common Voice)運行一段時間,並且已經釋出英文的語料庫出來,可以供 AI 訓練語言辨識模組。台灣社群的努力,開始台灣的語音收集計畫,並且收錄包括柯 P、蔡總統文告,變成語音訓練資料庫的一部分。

Mozilla 的 Kelly Davis 是語音辨識的專家,說語音辨識是相當複雜的過程,細部拆解可以分成語音截取、語音辨識、自然語言理解/對話 AI、自然語音生成,以及合成對話。目前同聲計畫專注在收集語音資料這一步,然後收集足夠多的對話文字和語音資料,就可以做 Speech to text 的轉換。他們自己評估需要收集不同人共 10,000 小時的錄音,就能訓練出可以媲美 Google 語音助理效果的語音辨識 AI 了。

▲ 語音相關技術彼此之間的關係,而同聲計畫則是在第二步語音辨識這邊。(Mozilla 提供)

由於全球的科技公司以北美為主,因此做語音助理這塊,用北美男性口音效果最好。但北美的人口只是全球人口一部分,要能夠服務全球所有人口,必須廣納全球各地不同人的聲音,儘量多樣的聲音,男女老幼聲音都要能盡力收錄。

▲ 同聲計畫專注 Speech-to-Text 這塊,而 Mozilla 另一個計畫 Deep Learning 則是做語音生成這塊。(Source:科技新報)

資源少,還沒辦法好好寫說明文件

同聲計畫團隊的 Michael Henretty 稱讚先前《科技新報》的文章有類似一步一步帶的操作步驟說明,還有清礎說明那些平台可以用,特定平台又要怎麼用,他們團隊小,而且為了避免計畫人力過大,影響既有 Mozilla 的任務,以小團隊的方式進行,甚至美編還得共用。同聲計畫還沒有時間精力撰寫說明文件。Michael 聽到下載出問題的狀況,如同前面提及的文件還不大夠的問題,說他們還沒有時間好好優化流程,之後要好好來改善。

▲ 如何錄音的說明,同聲計畫還沒有太多精力撰寫。同聲計畫也有想要拍說明影片,介紹如何錄音及驗證錄音資料。(Source:科技新報 )

同聲計畫資源不多的狀況,還反映在這個計畫還並沒有 logo。很多素材的現況,如充做吉祥物角色的機器人,則是去年在台灣的設計思考工作坊的產物。Henretty 說他們希望之後有更多資源進來,計畫本身有更多動力,週邊的行銷資源也能改善。

同聲計畫團隊指他們聽到不少參與者的心聲,如加上錄音排行榜,以及離目標 10,000 小時完成度的百分比餅圖。另外針對收集錄音對象,能夠更細致的詢問年齡、出生地,讓 AI 訓練更為精確。

柯 P、蔡總統文告成為素材之一

Mozilla 台灣社群聯絡人 Irvin 說他們收集屬於公有領域的素材,像是不受台灣著作權保護的政府官員說話的新聞稿。因此訓練的素材有柯文哲市長的致辭新聞稿,或是蔡文英總統的文告,各位可以念到柯 P 語錄或是蔡總統的發言。

維基百科是規模相當龐大的文字資料庫,但受限維基百科採用 CC-BY-SA 方式授權,因此不能使用。由於預期語音的應用會需要混搭,因此採用寬鬆的 CC0 授權,幫助新創和學生發展不同的語音應用。

目前同聲計畫計畫共錄製 900 小時,有 112 個國家參與。同聲計畫已經是全球第二大開源語料庫,預計不久之後,2018 年年中會超越最大 LibriSpeech 成為最大開源語料庫。

▲ LibriSpeech 是全球最大的開放語料庫,但預料不久應會被同聲計畫超越。(Source:科技新報)

而各別語言拆開論述。大家關心台灣的部分,目前已經收集 36 小時的錄音,這不過是從 6 月 30 日開始的累積成果,這樣的成績相當不錯。如果依據同樣速度前進,可以很快超車排名第二、第三的法國和德國,站上第二名的位置。

開放創新,多個利益相關者共同參與的創新方式

Mozilla 強調開放創新的理念,相對之下就是傳統公司關起門的研發。Mozilla 發展同聲計畫,就有來自學界的幫忙,如威爾斯的 Bangor University in Wales 長期致力收集和保存凱爾特語言,就提供語言學的專業知識,實際的語音收集技術,以及另一種接觸人的方法。Bangor University 的老師就說,他們出去收集素材,會被要求有償進行,但 Mozilla 發起的計畫,卻能動員人們免費參與,免費給錄音出來。Bangor University 已經收集五年了,成果卻比不上同聲計畫。

Davis 就說同聲計畫與 Bangor University 的合作就是相當典型的開放創新,Bangor University 提供語言保存角度可以怎麼做的作法,Mozilla 則是提供軟體技術的支援。

儘管同聲計畫資料庫採用 CC0 的授權,別人用資料可以不必標示出處,但同聲計畫團隊表示,仍希望能被使用者告知,知道他們辛苦收集的資料用在何方。商業公司如 Google,已經有用到釋出的英文語料資料了,新創公司 Mycoft 則是搭配 Mozilla 另一語言專案 Deep Speech,做出類似 Siri 的產品。

台語、客語,多個原住民語言都可能收錄

不少人可能好奇能否收錄 Taigi (台語)、Hakka (客家話)、眾多原住民語言等台灣語言。同聲計畫團隊指他們的力量有限,無法接觸世界上每種語言。以他們角度則是儘可能 empower 各個社群,要他們來參與,鼓勵他們參與,在由社群制訂方法和收錄文字資料。而台灣社群相當積極推動同聲計畫,也讓台灣很快就能收集自家的語言資料了,成為亞洲第一個開始的語言。

Irvin 提台灣社群討論時,有想過以漢字、台灣羅馬字並列的方式生出台語的文字資料,而原住民語言則先列出用漢字寫的文句,族人依據他們族語的念法,直接念出來。

同聲計畫團隊說中文的挑戰相當巨大,像是有繁簡體字兩套文字書寫方式,同樣的文字說話的語音不同,地理分佈導致語言有相當大的差異。所以這就是社群內部討論的重要性所在,最終依據討論成果列出收錄方式和文字的資料庫。

有這麼多技術可以做,為何挑選語音辨識。Davis 表示不少人不識字,對於電腦慣用的鍵盤輸入並不熟悉,如果直接用語音方式操作,會更為直接,能夠接觸需要網路的人。未來 Mozilla 的 Firefox 瀏覽器,計畫加上直接聲控的功能。

(首圖圖說:同聲計畫在台灣的社群活動,同聲計畫成員介紹專案。來源:科技新報)

查看原始文章

更多科技相關文章

01

電動車商Rivian自主研發自駕晶片 委由台積電代工

路透社
02

歐盟質疑谷歌利用網路內容發展AI 展開反壟斷調查

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...