一個明顯沒有商業規模的AI模型正在被開發。為什麼要做?台北大學電資學院院長張玉山給出的答案是:「為了溝通平權。」
根據衛生福利部統計,截至今年第二季度,台灣重度至極重度「涉及聲音與言語構造及其功能」的身心障礙人口數大約3,500人,放在語言模型開發與訓練的高昂成本面前,絕對不是一筆划算的應用。
不過,由張玉山召集的台北大學團隊,成員橫跨資工系、通訊系、資管系和社工系,共計約20名師生,推出「ezTalk」和「Voice Bank」兩套軟體系統,要用AI來改善語言障礙者的溝通困境。
憂心社會「等不了學生開口」,教授量身打造語音辨識系統
「他在講,我根本聽不懂,必須要等他慢慢打字。」張玉山口中的「他」,是一路在電機學院從學士念到博士班的學生黃瀚勳,因為罹患遺傳性退化性罕見疾病,黃瀚勳即使費力說出每個字,因為發音很難準確,旁人還是不容易理解。
「我們當老師可以這樣子等,可是在社會上有多少人願意等?」循著這股為人師長的使命感,張玉山組織ezTalk開發小組,以黃瀚勳的碩士論文研究為起點,而黃瀚勳既是核心成員,也是頭號試用種子。
運用AI深度學習的技術,在ezTalk平台上,使用者可以重複錄製多筆音檔,讓AI認得自己的聲音,之後只要對著ezTalk系統講話,透過比對個人語料庫,機器就能辨識使用者的發音,進而播放出完整的語句。目前只要是使用者有錄音過的句子,系統成功辨識率都能達到8成左右。
在語音辨識之外,由通訊系副教授江振宇負責的Voice Bank,則是和漸凍人協會合作,做得是語音的合成。就像打造聲音的銀行一樣,在漸凍症患者還能正常說話時,存入他們的聲音,若是將來病情嚴重,藉由操控眼動滑鼠,患者就能提取自己的聲音來與人溝通。
錄音200萬字才能建立個人模型,生成式AI創造捷徑?
不過,每個人的聲音都不一樣,無論是Voice Bank或ezTalk,要用強調通用性的AI技術,去做高度個別化的工作,都是一項充滿矛盾的挑戰。
江振宇分享,初期有20位漸凍症病友參與計畫,就要建立20套獨立的系統,「語障者還有各種不同的個人化狀況,『有必要這樣搞嗎?』,心裡面一直有這個問號在。」
張玉山也表示,要訓練好一套專屬使用者的模型,理想狀況需要200萬字的原始音源資料,同樣一個句子,使用者就要唸上20遍。就算立意再良好,對語言障礙者來說,幾乎是不可能的任務。
因此,張玉山嘗試導入生成式AI技術,運用數萬句的龐大語料庫資料,讓AI基於使用者的錄音,生成個人的語音模型,對於發聲困難的使用者,「(原始音源)可能不用收到200萬,收個幾萬字我們就可以幫他訓練一個模型出來。」張玉山說明,團隊也在思考能不能將Voice Bank的語料庫,運用到ezTalk的語音辨認上,或是從中生成接近使用者原聲的聲音。未來ezTalk辨識出來的句子,可以用接近本人的聲音播放出來。
延伸閱讀:10大AI關鍵技術有哪些?邊緣AI、AI代理、數位孿生⋯資策會揭「台灣模式」方向
科技輔助弱勢,語言障礙者看見「Free Talk」希望
去年,張玉山帶領的台北大學AI團隊,成功爭取國科會「以包容為導向之科技計畫」為期3年的補助。張玉山表示,目前計畫進度超前,登入ezTalk的帳號總計95個,其中已建立好的個人語音模型有33套;Voice Bank則有約40至50位完成錄音的病友,其中有6~7位可能已經無法開口說話、開始使用個人語料庫。
「對病人來講,要讓他覺得有存在感、真的可以用,讓他們有希望。」江振宇說,學術單位沒辦法負擔高算力的硬體設備,要設計繁雜的語言模型有難度。因此,團隊正朝向小型語言模型開發,往能在個人電腦操作的邊緣應用發展,患者方便使用、穩定度夠高會是首要考量。
等待Voice Bank累積足夠多的語料,江振宇也希望能建立語言障礙分級指標,了解要成功辨識不同程度語言障礙者說的話,分別需要收集多少錄音內容,為ezTalk建立更系統化的操作流程。
回想初衷,張玉山只是想幫助學生清楚表達照護需求,至少讓「吃飯」、「喝水」、「上廁所」等日常詞句,能夠順利向家人傳達。但是,為了「包容科技計畫」走訪了10多個病友組織之後,張玉山的心中長出一個「Free Talk」願景,要透過AI科技,讓語言障礙者平等溝通,「他想講什麼就可以講什麼,他愛怎麼講就怎麼講,就跟我們一樣。」
延伸閱讀:
奧援台灣AI新創!數發部祭100億銀彈,軟體、電商、遊戲⋯都能申請
太早賣輝達,孫正義哭倒在黃仁勳肩膀!新合作計畫曝光,再續AI前緣
責任編輯:林美欣
延伸閱讀
一口菜英文也能暢聊!Google推Project Relate幫特殊腔調、語言障礙「代言」
稱AI推理成本「每年降10倍」!李開復:開發價格親民的LLM應用是關鍵
「加入《數位時代》LINE好友,科技新聞不漏接」
留言 1
Min min
謝謝你們的努力💪
5小時前
顯示全部