請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

國內

讓AI懂客家 曾貴海家人授權作品提供語料

客家電視

更新於 2025年07月05日04:12 • 發布於 2025年07月04日12:01 • 陳郁心 羅應展 臺北

臺灣華語、客語等語料嚴重不足,以致當代主流AI模型,多以英文以及簡體中文為訓練基礎,臺灣語言及文化在AI時代中被邊緣化,資訊經理人協會發起Taiwan Tongues計畫,試圖打造能理解臺灣本土文化及語言的開源AI生態系,已故客籍詩人曾貴海家人也大方授權作品,成為本土AI生態系,理解客家文化的第一步。

常覺得GhatGPT等AI機器人,回答答案不正確或者怪怪的嗎,記者實測以客語用字詢問ChatGPT,AI卻答非所問,專家解答,最大原因來自,機器人訓練時缺乏臺灣價值觀內容。

數位發展部次長 林宜敬:「我們不能讓這種狀況,就是讓全世界的AI模型都是,都是那個由簡體中文的資料去訓練,結果訓練出來的都是,那個跟我們不一樣的價值觀。」

為彌補目前臺灣開放語料資源不足,資訊經理人協會結合產官學資源,發起Taiwan Tongues,台灣通用語料庫計畫,預計開發,具備臺灣多元文化觀點、理解臺灣語境,有文字、可聽說讀,臺灣台語、客語等語言的AI生態系,客語方面,蒐集語料最先使用醫師詩人曾貴海,富有濃濃客家色彩的作品。

客籍詩人曾貴海兒子 曾澤民:「新版《原鄉.夜合》這本詩集裡面,有比較多客語的字寫的這樣,有些有寫到,客家婦女、客家文化這樣的詩,其實滿適合做AI語言的訓練。」

台灣通用資料庫計畫執行委員會主委 胡長松:「透過持續地去訓練跟監督式的微調,那再加上這個,臺灣語境的一個訓練框架,那藉由這三個步驟,就會把客語訓練進去。」

Taiwan Tongues未來會將計畫成果開源,提供支援語音助理、語言教學等應用,打造跨語種、可供AI訓練,和研究的開放資料庫。

查看原始文章

更多國內相關文章

01

網紅環島發貼紙 50改裝車友深夜聚柴山 警來了...超糗牽車下山

ETtoday新聞雲
02

關子嶺知名溫泉會館夜間大爆管! 梯間.7客房全「泡湯」

TVBS
03

囂張小三「全身剩一片」躺主臥 正宮撞見氣炸提告

EBC 東森新聞
04

台中和平墜橋意外!男自撞護欄噴飛…「墜3樓深」倒臥橋底慘死

三立新聞網
05

偷帶「中國豬肉乾」入境罰20萬!賴皮不繳房產全被查封 婦女孬了秒繳清

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...