專訪／AI模型秀台灣腔，Taiwan Tongues可行？

2024年年底，中華民國資訊經理人協會（IMA）宣布展開「Taiwan Tongues」計畫，目標建起台灣在地語料庫，用以訓練AI模型。現在，他們更進一步推出資料集，用來測試AI模型對台灣文化語境的理解程度。在科技大廠努力研發演算法、力拚算力、挖角人才的時候，為何IMA要回頭發展基礎建設？

演算法、算力與資料，是資料科學與人工智慧發展的三大支柱。但檢視現有環境，台灣可說是三項皆有不足。

台灣不僅缺乏品質優異且數量足夠的資料，也不像Meta、xAI能夠以萬張為單位添購GPU，更難以千萬等級高薪爭搶頂級人工智慧人才。既然如此，IMA優先投入資料戰場的理由為何？

缺乏高品質資料訓練AI，政府燒錢買、企業偷偷用

自2022年底ChatGPT掀起全球AI浪潮後，台灣便出現是否該開發「本土GPT」的呼聲。

國科會從維繫文化、促進主權AI的立場出發，開發「可信任AI對話引擎TAIDE」；民間企業台智雲、聯發科等，則因為看見商業需求，相繼推出自家模型。與此同時，數發部提供算力給新創使用，也有企業投入算力租賃服務，從不同面向推進主權AI的發展。

IMA之所以從中優先鎖定資料，原因在於要先有好資料，才會有好的模型。

「所有訓練（模型）的基礎，一定都是從語料來的。不管是國際或者是在地，大型語言模型其實都是從語料開始。」參與「Taiwan Tongues」計畫的IMA成員、同時也是吳三連文學獎得主胡長松接受《遠見》專訪時，解釋投入蒐集並尋求授權語料的原因。

觀察現有台灣本土語言模型，由公部門主導的TAIDE相對公開，有在計畫中揭露訓練資料來源；企業自研模型則較為隱晦，難以得知其語料組成與授權情況。

雖然政府機關帶頭添購資料，但TAIDE計畫顧問、中研院資訊科學研究所副研究員黃瀚萱在演講時分享，TAIDE需要每年支出資料授權費用，長遠來說頗有壓力。此外，想採購合法資料不只有成本考量，資料擁有者也未必知道應該以何種價格與模式授權給模型開發者。

至於企業的模糊以對，有模型開發者私下向透露，這是有意為之。因為台灣現行著作權法規，尚未明確處理訓練AI模型，是否屬於合理使用（fair use）。若企業貿然取用網路資料並用於訓練模型，可能有侵權疑慮，因此即便在論文裡，也都無法說清楚細節。

企業可能會擔心侵權，政府則有使用者付費的壓力，對照之下，倘若要號召蒐集資料，位於民間、提倡公共利益的IMA恰好處在適合推行的位置。

「我蓋個碼頭，不太可能靠一個漁民，或者靠一家漁業公司，還得是公共建設，而且一旦做了，就能讓大家都可以用。」蔡祈岩表示，期待能夠完善資料的基礎建設，讓本土和國際級的模型業者，都能夠充實中文語料。

主動推廣本土資料，讓大廠訓練模型能想到台灣

充實繁體中文語料的好處，在於讓模型能夠更懂台灣。

胡長松解釋，語言的意義不只在於表層的詞彙選擇，究竟要講馬鈴薯還是土豆。「語言背後的價值觀正在影響 AI，這事關重大，」因為語言背後，還能夠反映出文化與價值觀。

蔡祈岩補充，他更傾向於使用「AI主權」，而非「主權AI」，因為IMA推動計畫的目標，不是要打造能夠由台灣控制的AI模型，而是要讓全世界的AI模型在台灣落地時，都能夠發揮台灣應用的主體性。

目前OpenAI、Google等模型開發商的訓練資料集沒有足夠的繁體中文資料，但問題不在於他們不願使用繁中資料，而是在於他們可能無法取得。

「我們也會主動出擊，接觸這些國際AI公司，告訴他們有這個東西，也會和他們討論格式、缺乏的語料，跟國際協作。」如此一來，使用ChatGPT或者Gemini時，就不用擔心簡中腔，或者錯把國慶日當成十月一日的窘境。

目前，IMA正在多頭並進準備語料，除了向創作者尋求授權以外，也會尋找已經沒有版權的公共領域資料，並且參考維基百科共同編輯的框架，號召民眾翻譯缺乏繁體中文、台語的條目，藉此擴大Taiwan Tongues的語料範圍。

有課本、考題跟教案，才能真正傳遞台灣知識

蒐集資料，只是Taiwan Tongues計畫的第一步。本週（7/4）的記者會上，Taiwan Tongues正式端出「Taiwan Tongues Scoring」資料集，用來測試AI模型有多了解台灣，包含用語、句法、價值觀和文化，都在評測範圍。

胡長松援引電腦科學的用語，「這就是在測試文化上的語境（context），」不只會問類似「象山在哪裡」的知識性問題，也會有「世界上有沒有神明的存在」這類偏向文化的提問。

測試模型的Taiwan Tongues分數，不是要政治審查，而是想兼顧文化主權以及商業應用場景，讓模型能夠更在地、更懂台灣。

有了語料作為課本，還有測試資料集作為考卷，最後還缺課程。Taiwan Tongues計畫的參與者群聯電子，還會提供訓練框架，輔助有意提升模型台灣理解能力的企業，微調客製化模型。

「我們希望全世界的AI，在台灣就講台灣腔。」率先響應計畫，捐出約百萬字台語著作內容的胡長松感性地說，希望讓AI可以懂台灣的文字、台灣的語言，藉此讓台灣的存在感和影響力，能夠更為深遠。這也就是Taiwan Tongues的終極目標了。

更多精采報導，歡迎加入《遠見》 Line官方帳號！

請更新您的瀏覽器

理財

遠見雜誌

缺乏高品質資料訓練AI，政府燒錢買、企業偷偷用

主動推廣本土資料，讓大廠訓練模型能想到台灣

有課本、考題跟教案，才能真正傳遞台灣知識

更多理財相關文章

台股血洗1683點「該抄底還是逃命？」　股海老牛曝1件事比抄底更重要

護國神山自己救！台積電遭外資連4砍　3家上市櫃公司搶進280張

台股週一恐續震？融資猛殺出200億！他點「週末1操作自救」：別急…

神祕後勤部隊2／七年級美女董座蹲廠2年　撐起年燒300天運轉數、成神山群最強後盾

台股震盪回檔8%嚇壞市場！阮慕驊揭「獲利落袋」心法：看懂這關鍵才叫贏

妹子抱怨男友「高收入只定存」不買ETF　引網友熱議

請更新您的瀏覽器啟用Javascript

專訪／AI模型秀台灣腔，Taiwan Tongues可行？

遠見雜誌

缺乏高品質資料訓練AI，政府燒錢買、企業偷偷用

主動推廣本土資料，讓大廠訓練模型能想到台灣

有課本、考題跟教案，才能真正傳遞台灣知識

更多理財相關文章

台股血洗1683點「該抄底還是逃命？」 股海老牛曝1件事比抄底更重要

護國神山自己救！台積電遭外資連4砍 3家上市櫃公司搶進280張

台股週一恐續震？融資猛殺出200億！他點「週末1操作自救」：別急…

神祕後勤部隊2／七年級美女董座蹲廠2年 撐起年燒300天運轉數、成神山群最強後盾

台股震盪回檔8%嚇壞市場！阮慕驊揭「獲利落袋」心法：看懂這關鍵才叫贏

妹子抱怨男友「高收入只定存」不買ETF 引網友熱議

請更新您的瀏覽器

台股血洗1683點「該抄底還是逃命？」　股海老牛曝1件事比抄底更重要

護國神山自己救！台積電遭外資連4砍　3家上市櫃公司搶進280張

神祕後勤部隊2／七年級美女董座蹲廠2年　撐起年燒300天運轉數、成神山群最強後盾

妹子抱怨男友「高收入只定存」不買ETF　引網友熱議