讓AI懂客家 曾貴海家人授權作品提供語料
臺灣華語、客語等語料嚴重不足,以致當代主流AI模型,多以英文以及簡體中文為訓練基礎,臺灣語言及文化在AI時代中被邊緣化,資訊經理人協會發起Taiwan Tongues計畫,試圖打造能理解臺灣本土文化及語言的開源AI生態系,已故客籍詩人曾貴海家人也大方授權作品,成為本土AI生態系,理解客家文化的第一步。
常覺得GhatGPT等AI機器人,回答答案不正確或者怪怪的嗎,記者實測以客語用字詢問ChatGPT,AI卻答非所問,專家解答,最大原因來自,機器人訓練時缺乏臺灣價值觀內容。
數位發展部次長 林宜敬:「我們不能讓這種狀況,就是讓全世界的AI模型都是,都是那個由簡體中文的資料去訓練,結果訓練出來的都是,那個跟我們不一樣的價值觀。」
為彌補目前臺灣開放語料資源不足,資訊經理人協會結合產官學資源,發起Taiwan Tongues,台灣通用語料庫計畫,預計開發,具備臺灣多元文化觀點、理解臺灣語境,有文字、可聽說讀,臺灣台語、客語等語言的AI生態系,客語方面,蒐集語料最先使用醫師詩人曾貴海,富有濃濃客家色彩的作品。
客籍詩人曾貴海兒子 曾澤民:「新版《原鄉.夜合》這本詩集裡面,有比較多客語的字寫的這樣,有些有寫到,客家婦女、客家文化這樣的詩,其實滿適合做AI語言的訓練。」
台灣通用資料庫計畫執行委員會主委 胡長松:「透過持續地去訓練跟監督式的微調,那再加上這個,臺灣語境的一個訓練框架,那藉由這三個步驟,就會把客語訓練進去。」
Taiwan Tongues未來會將計畫成果開源,提供支援語音助理、語言教學等應用,打造跨語種、可供AI訓練,和研究的開放資料庫。