6個人已經無法說話！台北大學20名師生「努力做不賺錢的事」：讓AI幫語言障礙者說話

一個明顯沒有商業規模的AI模型正在被開發。為什麼要做？台北大學電資學院院長張玉山給出的答案是：「為了溝通平權。」

根據衛生福利部統計，截至今年第二季度，台灣重度至極重度「涉及聲音與言語構造及其功能」的身心障礙人口數大約3,500人，放在語言模型開發與訓練的高昂成本面前，絕對不是一筆划算的應用。

不過，由張玉山召集的台北大學團隊，成員橫跨資工系、通訊系、資管系和社工系，共計約20名師生，推出「ezTalk」和「Voice Bank」兩套軟體系統，要用AI來改善語言障礙者的溝通困境。

憂心社會「等不了學生開口」，教授量身打造語音辨識系統

「他在講，我根本聽不懂，必須要等他慢慢打字。」張玉山口中的「他」，是一路在電機學院從學士念到博士班的學生黃瀚勳，因為罹患遺傳性退化性罕見疾病，黃瀚勳即使費力說出每個字，因為發音很難準確，旁人還是不容易理解。

「我們當老師可以這樣子等，可是在社會上有多少人願意等？」循著這股為人師長的使命感，張玉山組織ezTalk開發小組，以黃瀚勳的碩士論文研究為起點，而黃瀚勳既是核心成員，也是頭號試用種子。

ntpu_黃瀚勳.jpg — 臺北大學黃瀚勳在老師張玉山眼裡才華洋溢，是開發ezTalk的核心成員。

運用AI深度學習的技術，在ezTalk平台上，使用者可以重複錄製多筆音檔，讓AI認得自己的聲音，之後只要對著ezTalk系統講話，透過比對個人語料庫，機器就能辨識使用者的發音，進而播放出完整的語句。目前只要是使用者有錄音過的句子，系統成功辨識率都能達到8成左右。

在語音辨識之外，由通訊系副教授江振宇負責的Voice Bank，則是和漸凍人協會合作，做得是語音的合成。就像打造聲音的銀行一樣，在漸凍症患者還能正常說話時，存入他們的聲音，若是將來病情嚴重，藉由操控眼動滑鼠，患者就能提取自己的聲音來與人溝通。

錄音200萬字才能建立個人模型，生成式AI創造捷徑？

不過，每個人的聲音都不一樣，無論是Voice Bank或ezTalk，要用強調通用性的AI技術，去做高度個別化的工作，都是一項充滿矛盾的挑戰。

江振宇分享，初期有20位漸凍症病友參與計畫，就要建立20套獨立的系統，「語障者還有各種不同的個人化狀況，『有必要這樣搞嗎？』，心裡面一直有這個問號在。」

ntpu_江振宇 — 江振宇開發Voice Bank系統，認為最有挑戰的地方是硬體限制與個人化模型。

張玉山也表示，要訓練好一套專屬使用者的模型，理想狀況需要200萬字的原始音源資料，同樣一個句子，使用者就要唸上20遍。就算立意再良好，對語言障礙者來說，幾乎是不可能的任務。

因此，張玉山嘗試導入生成式AI技術，運用數萬句的龐大語料庫資料，讓AI基於使用者的錄音，生成個人的語音模型，對於發聲困難的使用者，「（原始音源）可能不用收到200萬，收個幾萬字我們就可以幫他訓練一個模型出來。」張玉山說明，團隊也在思考能不能將Voice Bank的語料庫，運用到ezTalk的語音辨認上，或是從中生成接近使用者原聲的聲音。未來ezTalk辨識出來的句子，可以用接近本人的聲音播放出來。

延伸閱讀：10大AI關鍵技術有哪些？邊緣AI、AI代理、數位孿生⋯資策會揭「台灣模式」方向

科技輔助弱勢，語言障礙者看見「Free Talk」希望

去年，張玉山帶領的台北大學AI團隊，成功爭取國科會「以包容為導向之科技計畫」為期3年的補助。張玉山表示，目前計畫進度超前，登入ezTalk的帳號總計95個，其中已建立好的個人語音模型有33套；Voice Bank則有約40至50位完成錄音的病友，其中有6～7位可能已經無法開口說話、開始使用個人語料庫。

「對病人來講，要讓他覺得有存在感、真的可以用，讓他們有希望。」江振宇說，學術單位沒辦法負擔高算力的硬體設備，要設計繁雜的語言模型有難度。因此，團隊正朝向小型語言模型開發，往能在個人電腦操作的邊緣應用發展，患者方便使用、穩定度夠高會是首要考量。

等待Voice Bank累積足夠多的語料，江振宇也希望能建立語言障礙分級指標，了解要成功辨識不同程度語言障礙者說的話，分別需要收集多少錄音內容，為ezTalk建立更系統化的操作流程。

回想初衷，張玉山只是想幫助學生清楚表達照護需求，至少讓「吃飯」、「喝水」、「上廁所」等日常詞句，能夠順利向家人傳達。但是，為了「包容科技計畫」走訪了10多個病友組織之後，張玉山的心中長出一個「Free Talk」願景，要透過AI科技，讓語言障礙者平等溝通，「他想講什麼就可以講什麼，他愛怎麼講就怎麼講，就跟我們一樣。」

延伸閱讀：
奧援台灣AI新創！數發部祭100億銀彈，軟體、電商、遊戲⋯都能申請
 太早賣輝達，孫正義哭倒在黃仁勳肩膀！新合作計畫曝光，再續AI前緣

責任編輯：林美欣

請更新您的瀏覽器

理財

數位時代

憂心社會「等不了學生開口」，教授量身打造語音辨識系統

錄音200萬字才能建立個人模型，生成式AI創造捷徑？

科技輔助弱勢，語言障礙者看見「Free Talk」希望

留言 1