讓AI懂客家曾貴海家人授權作品提供語料

臺灣華語、客語等語料嚴重不足，以致當代主流AI模型，多以英文以及簡體中文為訓練基礎，臺灣語言及文化在AI時代中被邊緣化，資訊經理人協會發起Taiwan Tongues計畫，試圖打造能理解臺灣本土文化及語言的開源AI生態系，已故客籍詩人曾貴海家人也大方授權作品，成為本土AI生態系，理解客家文化的第一步。

常覺得GhatGPT等AI機器人，回答答案不正確或者怪怪的嗎，記者實測以客語用字詢問ChatGPT，AI卻答非所問，專家解答，最大原因來自，機器人訓練時缺乏臺灣價值觀內容。

數位發展部次長林宜敬：「我們不能讓這種狀況，就是讓全世界的AI模型都是，都是那個由簡體中文的資料去訓練，結果訓練出來的都是，那個跟我們不一樣的價值觀。」

為彌補目前臺灣開放語料資源不足，資訊經理人協會結合產官學資源，發起Taiwan Tongues，台灣通用語料庫計畫，預計開發，具備臺灣多元文化觀點、理解臺灣語境，有文字、可聽說讀，臺灣台語、客語等語言的AI生態系，客語方面，蒐集語料最先使用醫師詩人曾貴海，富有濃濃客家色彩的作品。

客籍詩人曾貴海兒子曾澤民：「新版《原鄉．夜合》這本詩集裡面，有比較多客語的字寫的這樣，有些有寫到，客家婦女、客家文化這樣的詩，其實滿適合做AI語言的訓練。」

台灣通用資料庫計畫執行委員會主委胡長松：「透過持續地去訓練跟監督式的微調，那再加上這個，臺灣語境的一個訓練框架，那藉由這三個步驟，就會把客語訓練進去。」

Taiwan Tongues未來會將計畫成果開源，提供支援語音助理、語言教學等應用，打造跨語種、可供AI訓練，和研究的開放資料庫。

請更新您的瀏覽器

國內

客家電視

更多國內相關文章

網紅環島發貼紙　50改裝車友深夜聚柴山　警來了...超糗牽車下山

關子嶺知名溫泉會館夜間大爆管！　梯間.7客房全「泡湯」

囂張小三「全身剩一片」躺主臥正宮撞見氣炸提告

台中和平墜橋意外！男自撞護欄噴飛…「墜3樓深」倒臥橋底慘死

偷帶「中國豬肉乾」入境罰20萬！賴皮不繳房產全被查封　婦女孬了秒繳清

請更新您的瀏覽器啟用Javascript

讓AI懂客家 曾貴海家人授權作品提供語料

客家電視

更多國內相關文章

網紅環島發貼紙 50改裝車友深夜聚柴山 警來了...超糗牽車下山

關子嶺知名溫泉會館夜間大爆管！ 梯間.7客房全「泡湯」

囂張小三「全身剩一片」躺主臥 正宮撞見氣炸提告