請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

專訪/AI模型秀台灣腔,Taiwan Tongues可行?

遠見雜誌

更新於 2025年07月04日11:01 • 發布於 2025年07月04日11:01 • 曾子軒

2024年年底,中華民國資訊經理人協會(IMA)宣布展開「Taiwan Tongues」計畫,目標建起台灣在地語料庫,用以訓練AI模型。現在,他們更進一步推出資料集,用來測試AI模型對台灣文化語境的理解程度。在科技大廠努力研發演算法、力拚算力、挖角人才的時候,為何IMA要回頭發展基礎建設?

演算法、算力與資料,是資料科學與人工智慧發展的三大支柱。但檢視現有環境,台灣可說是三項皆有不足。

台灣不僅缺乏品質優異且數量足夠的資料,也不像Meta、xAI能夠以萬張為單位添購GPU,更難以千萬等級高薪爭搶頂級人工智慧人才。既然如此,IMA優先投入資料戰場的理由為何?

缺乏高品質資料訓練AI,政府燒錢買、企業偷偷用

自2022年底ChatGPT掀起全球AI浪潮後,台灣便出現是否該開發「本土GPT」的呼聲。

國科會從維繫文化、促進主權AI的立場出發,開發「可信任AI對話引擎TAIDE」;民間企業台智雲、聯發科等,則因為看見商業需求,相繼推出自家模型。與此同時,數發部提供算力給新創使用,也有企業投入算力租賃服務,從不同面向推進主權AI的發展。

IMA之所以從中優先鎖定資料,原因在於要先有好資料,才會有好的模型。

「所有訓練(模型)的基礎,一定都是從語料來的。不管是國際或者是在地,大型語言模型其實都是從語料開始。」參與「Taiwan Tongues」計畫的IMA成員、同時也是吳三連文學獎得主胡長松接受《遠見》專訪時,解釋投入蒐集並尋求授權語料的原因。

觀察現有台灣本土語言模型,由公部門主導的TAIDE相對公開,有在計畫中揭露訓練資料來源;企業自研模型則較為隱晦,難以得知其語料組成與授權情況。

雖然政府機關帶頭添購資料,但TAIDE計畫顧問、中研院資訊科學研究所副研究員黃瀚萱在演講時分享,TAIDE需要每年支出資料授權費用,長遠來說頗有壓力。此外,想採購合法資料不只有成本考量,資料擁有者也未必知道應該以何種價格與模式授權給模型開發者。

至於企業的模糊以對,有模型開發者私下向透露,這是有意為之。因為台灣現行著作權法規,尚未明確處理訓練AI模型,是否屬於合理使用(fair use)。若企業貿然取用網路資料並用於訓練模型,可能有侵權疑慮,因此即便在論文裡,也都無法說清楚細節。

企業可能會擔心侵權,政府則有使用者付費的壓力,對照之下,倘若要號召蒐集資料,位於民間、提倡公共利益的IMA恰好處在適合推行的位置。

「我蓋個碼頭,不太可能靠一個漁民,或者靠一家漁業公司,還得是公共建設,而且一旦做了,就能讓大家都可以用。」蔡祈岩表示,期待能夠完善資料的基礎建設,讓本土和國際級的模型業者,都能夠充實中文語料。

主動推廣本土資料,讓大廠訓練模型能想到台灣

充實繁體中文語料的好處,在於讓模型能夠更懂台灣。

胡長松解釋,語言的意義不只在於表層的詞彙選擇,究竟要講馬鈴薯還是土豆。「語言背後的價值觀正在影響 AI,這事關重大,」因為語言背後,還能夠反映出文化與價值觀。

蔡祈岩補充,他更傾向於使用「AI主權」,而非「主權AI」,因為IMA推動計畫的目標,不是要打造能夠由台灣控制的AI模型,而是要讓全世界的AI模型在台灣落地時,都能夠發揮台灣應用的主體性。

目前OpenAI、Google等模型開發商的訓練資料集沒有足夠的繁體中文資料,但問題不在於他們不願使用繁中資料,而是在於他們可能無法取得。

「我們也會主動出擊,接觸這些國際AI公司,告訴他們有這個東西,也會和他們討論格式、缺乏的語料,跟國際協作。」如此一來,使用ChatGPT或者Gemini時,就不用擔心簡中腔,或者錯把國慶日當成十月一日的窘境。

目前,IMA正在多頭並進準備語料,除了向創作者尋求授權以外,也會尋找已經沒有版權的公共領域資料,並且參考維基百科共同編輯的框架,號召民眾翻譯缺乏繁體中文、台語的條目,藉此擴大Taiwan Tongues的語料範圍。

有課本、考題跟教案,才能真正傳遞台灣知識

蒐集資料,只是Taiwan Tongues計畫的第一步。本週(7/4)的記者會上,Taiwan Tongues正式端出「Taiwan Tongues Scoring」資料集,用來測試AI模型有多了解台灣,包含用語、句法、價值觀和文化,都在評測範圍。

胡長松援引電腦科學的用語,「這就是在測試文化上的語境(context),」不只會問類似「象山在哪裡」的知識性問題,也會有「世界上有沒有神明的存在」這類偏向文化的提問。

測試模型的Taiwan Tongues分數,不是要政治審查,而是想兼顧文化主權以及商業應用場景,讓模型能夠更在地、更懂台灣。

有了語料作為課本,還有測試資料集作為考卷,最後還缺課程。Taiwan Tongues計畫的參與者群聯電子,還會提供訓練框架,輔助有意提升模型台灣理解能力的企業,微調客製化模型。

「我們希望全世界的AI,在台灣就講台灣腔。」率先響應計畫,捐出約百萬字台語著作內容的胡長松感性地說,希望讓AI可以懂台灣的文字、台灣的語言,藉此讓台灣的存在感和影響力,能夠更為深遠。這也就是Taiwan Tongues的終極目標了。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

查看原始文章

更多理財相關文章

01

台股血洗1683點「該抄底還是逃命?」 股海老牛曝1件事比抄底更重要

鏡報
02

護國神山自己救!台積電遭外資連4砍 3家上市櫃公司搶進280張

ETtoday新聞雲
03

台股週一恐續震?融資猛殺出200億!他點「週末1操作自救」:別急…

民視新聞網
04

神祕後勤部隊2/七年級美女董座蹲廠2年 撐起年燒300天運轉數、成神山群最強後盾

鏡週刊
05

台股震盪回檔8%嚇壞市場!阮慕驊揭「獲利落袋」心法:看懂這關鍵才叫贏

風傳媒
06

妹子抱怨男友「高收入只定存」不買ETF 引網友熱議

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...