請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

助力 AI 模型學台灣用語,數發部推動台灣主權 AI 訓練語料庫

科技新報

更新於 2025年12月26日13:31 • 發布於 2025年12月26日13:29

數位發展部發表「台灣主權 AI 訓練語料庫」,廣納高品質、在地化正體中文語料,支援 AI 模型訓練更貼近台灣的語言、文化及生活情境,促進 AI 模型具備更高的本土辨識力與語意理解能力,以符合台灣社會與產業需求。

舉例來說,「土豆」在台灣指的是「花生」,但中國是指「馬鈴薯」。如今國際上的大型語言模型所採用的正體中文語料比例偏低,內容偏向簡體中文,易出現類似「土豆」例子的誤用狀況。因此 AI 模型訓練資料加入正體中文語料,有助於大型語言模型理解台灣的價值、政經文化,這也正是政府積極建立正體中文語料庫的用意。

數發部推動「台灣主權 AI 訓練語料庫」,已有超過 200 個政府機關投入,上架逾 2,000 筆資料集、超過 6 億 token 數,收錄各機關具台灣文化特色的高品質資料集,語意連貫、內容完整,涵蓋語言、文化、教育、生物、地理環境等領域,並設有入口網(taic.moda.gov.tw )提供個人、公司法人申請使用。

這些在地化資料就像 AI 的教材,幫助 AI 模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。

數發部指出,先中央機關協作,將過去資料及新增資料納入以文字為主的語料庫。例如文化部上架的公共藝術與文化資產類型資料集,展現台灣豐富、多元的藝文風貌,可作為訓練 AI 模型認識台灣文化內容的重要素材;教育部提供的語言辭典資料涵蓋台語、客語等,有助於強化 AI 模型的用詞精準度與語意理解能力。明年起將與地方政府、民間單位合作擴充語料庫,並與國內外廠商對接、投入訓練與應用。

為了擴大政府資料開放與共享,並促進產業與民間資料運作,數發部推動的《促進資料創新利用發展條例》草案已送至行政院審議,後續將送立法院。數發部更與經濟部智財局推出 《臺灣主權 AI 訓練語料授權條款-第 1 版》,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少 AI 訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權 AI 的發展與應用。

資料與人才將是 AI 發展的護城河,數發部積極推動正體中文語料庫,未來也會朝多媒體如影像、圖像等資料形式發展,並在合作框架下,引導地方政府與民間單位參與起中。

(首圖左起數發部政務次長侯宜秀、資料創新司司長莊明芬,來源:數位發展部)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

神祕交易員押注馬杜洛被捕 獲利逾40萬美元

anue鉅亨網
02

台灣人是「盤仔」?好市多會員費比日本、韓國貴超多 公司這麼說

自由電子報
03

嗆魏哲家下台道歉!台大副教授預言台積電跌破500 股民見新天價朝聖「疑悄悄刪文」

鏡週刊
04

不敢想像的新天價!外資喊台積電股價漲到2,330元

工商時報
05

沒有新顯卡卻更震撼!黃仁勳CES演說宣布 下一代AI平台VR已「全面生產」

鏡報
06

房市核彈1/「土方之亂」炸全台被迫停工2個月 專家示警留意房價波動

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...