柯 P 語錄、蔡總統文告也收錄，Mozilla 同聲計畫要建構無使用限制的全球最大語音語料庫

語音助理風行，從矽谷到東亞的中國、日本公司，不少科技公司投入資源進來發展這塊。但對不少新創還是學生研究人員來說，首先第一步遇到的問題是，他們沒有大公司資源，也無法靠一己之力收集所需要的訓練資料。Mozilla 看到這個問題，決定用開放創新 (Open Innovatoin) 方式來收集語音資料。Mozilla 的同聲計畫 (Common Voice)運行一段時間，並且已經釋出英文的語料庫出來，可以供 AI 訓練語言辨識模組。台灣社群的努力，開始台灣的語音收集計畫，並且收錄包括柯 P、蔡總統文告，變成語音訓練資料庫的一部分。

Mozilla 的 Kelly Davis 是語音辨識的專家，說語音辨識是相當複雜的過程，細部拆解可以分成語音截取、語音辨識、自然語言理解/對話 AI、自然語音生成，以及合成對話。目前同聲計畫專注在收集語音資料這一步，然後收集足夠多的對話文字和語音資料，就可以做 Speech to text 的轉換。他們自己評估需要收集不同人共 10,000 小時的錄音，就能訓練出可以媲美 Google 語音助理效果的語音辨識 AI 了。

▲ 語音相關技術彼此之間的關係，而同聲計畫則是在第二步語音辨識這邊。(Mozilla 提供)

由於全球的科技公司以北美為主，因此做語音助理這塊，用北美男性口音效果最好。但北美的人口只是全球人口一部分，要能夠服務全球所有人口，必須廣納全球各地不同人的聲音，儘量多樣的聲音，男女老幼聲音都要能盡力收錄。

▲ 同聲計畫專注 Speech-to-Text 這塊，而 Mozilla 另一個計畫 Deep Learning 則是做語音生成這塊。(Source：科技新報)

資源少，還沒辦法好好寫說明文件

同聲計畫團隊的 Michael Henretty 稱讚先前《科技新報》的文章有類似一步一步帶的操作步驟說明，還有清礎說明那些平台可以用，特定平台又要怎麼用，他們團隊小，而且為了避免計畫人力過大，影響既有 Mozilla 的任務，以小團隊的方式進行，甚至美編還得共用。同聲計畫還沒有時間精力撰寫說明文件。Michael 聽到下載出問題的狀況，如同前面提及的文件還不大夠的問題，說他們還沒有時間好好優化流程，之後要好好來改善。

▲ 如何錄音的說明，同聲計畫還沒有太多精力撰寫。同聲計畫也有想要拍說明影片，介紹如何錄音及驗證錄音資料。(Source：科技新報 )

同聲計畫資源不多的狀況，還反映在這個計畫還並沒有 logo。很多素材的現況，如充做吉祥物角色的機器人，則是去年在台灣的設計思考工作坊的產物。Henretty 說他們希望之後有更多資源進來，計畫本身有更多動力，週邊的行銷資源也能改善。

同聲計畫團隊指他們聽到不少參與者的心聲，如加上錄音排行榜，以及離目標 10,000 小時完成度的百分比餅圖。另外針對收集錄音對象，能夠更細致的詢問年齡、出生地，讓 AI 訓練更為精確。

柯 P、蔡總統文告成為素材之一

Mozilla 台灣社群聯絡人 Irvin 說他們收集屬於公有領域的素材，像是不受台灣著作權保護的政府官員說話的新聞稿。因此訓練的素材有柯文哲市長的致辭新聞稿，或是蔡文英總統的文告，各位可以念到柯 P 語錄或是蔡總統的發言。

維基百科是規模相當龐大的文字資料庫，但受限維基百科採用 CC-BY-SA 方式授權，因此不能使用。由於預期語音的應用會需要混搭，因此採用寬鬆的 CC0 授權，幫助新創和學生發展不同的語音應用。

目前同聲計畫計畫共錄製 900 小時，有 112 個國家參與。同聲計畫已經是全球第二大開源語料庫，預計不久之後，2018 年年中會超越最大 LibriSpeech 成為最大開源語料庫。

▲ LibriSpeech 是全球最大的開放語料庫，但預料不久應會被同聲計畫超越。(Source：科技新報)

而各別語言拆開論述。大家關心台灣的部分，目前已經收集 36 小時的錄音，這不過是從 6 月 30 日開始的累積成果，這樣的成績相當不錯。如果依據同樣速度前進，可以很快超車排名第二、第三的法國和德國，站上第二名的位置。

開放創新，多個利益相關者共同參與的創新方式

Mozilla 強調開放創新的理念，相對之下就是傳統公司關起門的研發。Mozilla 發展同聲計畫，就有來自學界的幫忙，如威爾斯的 Bangor University in Wales 長期致力收集和保存凱爾特語言，就提供語言學的專業知識，實際的語音收集技術，以及另一種接觸人的方法。Bangor University 的老師就說，他們出去收集素材，會被要求有償進行，但 Mozilla 發起的計畫，卻能動員人們免費參與，免費給錄音出來。Bangor University 已經收集五年了，成果卻比不上同聲計畫。

Davis 就說同聲計畫與 Bangor University 的合作就是相當典型的開放創新，Bangor University 提供語言保存角度可以怎麼做的作法，Mozilla 則是提供軟體技術的支援。

儘管同聲計畫資料庫採用 CC0 的授權，別人用資料可以不必標示出處，但同聲計畫團隊表示，仍希望能被使用者告知，知道他們辛苦收集的資料用在何方。商業公司如 Google，已經有用到釋出的英文語料資料了，新創公司 Mycoft 則是搭配 Mozilla 另一語言專案 Deep Speech，做出類似 Siri 的產品。

台語、客語，多個原住民語言都可能收錄

不少人可能好奇能否收錄 Taigi (台語)、Hakka (客家話)、眾多原住民語言等台灣語言。同聲計畫團隊指他們的力量有限，無法接觸世界上每種語言。以他們角度則是儘可能 empower 各個社群，要他們來參與，鼓勵他們參與，在由社群制訂方法和收錄文字資料。而台灣社群相當積極推動同聲計畫，也讓台灣很快就能收集自家的語言資料了，成為亞洲第一個開始的語言。

Irvin 提台灣社群討論時，有想過以漢字、台灣羅馬字並列的方式生出台語的文字資料，而原住民語言則先列出用漢字寫的文句，族人依據他們族語的念法，直接念出來。

同聲計畫團隊說中文的挑戰相當巨大，像是有繁簡體字兩套文字書寫方式，同樣的文字說話的語音不同，地理分佈導致語言有相當大的差異。所以這就是社群內部討論的重要性所在，最終依據討論成果列出收錄方式和文字的資料庫。

有這麼多技術可以做，為何挑選語音辨識。Davis 表示不少人不識字，對於電腦慣用的鍵盤輸入並不熟悉，如果直接用語音方式操作，會更為直接，能夠接觸需要網路的人。未來 Mozilla 的 Firefox 瀏覽器，計畫加上直接聲控的功能。

(首圖圖說：同聲計畫在台灣的社群活動，同聲計畫成員介紹專案。來源：科技新報)

請更新您的瀏覽器

科技

科技新報

資源少，還沒辦法好好寫說明文件

柯 P、蔡總統文告成為素材之一

開放創新，多個利益相關者共同參與的創新方式

台語、客語，多個原住民語言都可能收錄

更多科技相關文章

美國掃地機器人始祖iRobot 申請破產保護

電動車商Rivian自主研發自駕晶片　委由台積電代工

英國鎖定監管加密貨幣不肖業者　計劃2027年10月新法上路

請更新您的瀏覽器啟用Javascript

柯 P 語錄、蔡總統文告也收錄，Mozilla 同聲計畫要建構無使用限制的全球最大語音語料庫

科技新報

資源少，還沒辦法好好寫說明文件

柯 P、蔡總統文告成為素材之一

開放創新，多個利益相關者共同參與的創新方式

台語、客語，多個原住民語言都可能收錄

更多科技相關文章

美國掃地機器人始祖iRobot 申請破產保護

電動車商Rivian自主研發自駕晶片 委由台積電代工

英國鎖定監管加密貨幣不肖業者 計劃2027年10月新法上路

請更新您的瀏覽器

電動車商Rivian自主研發自駕晶片　委由台積電代工

英國鎖定監管加密貨幣不肖業者　計劃2027年10月新法上路