請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

數發部攜手中央研究院 釋出高品質研究語料

青年日報

更新於 2天前 • 發布於 2天前
「臺灣主權AI訓練語料庫」已累計上架逾3,000筆資料集、超過12億詞元。(數發部提供)

記者郭曉蓓/臺北報導

數位發展部「臺灣主權AI訓練語料庫」攜手中央研究院,上架多筆具代表性的研究及科普文本資源,涵蓋學術研究、政策分析、歷史文化及科普等多元面向,超過620萬詞元(tokens),內容兼具專業深度及知識價值,助攻多元AI應用。

數發部指出,專業領域知識語料不僅能有效提升模型於特定情境及專業領域的應用及理解能力,也有助於強化模型推理能力與回應精準度。例如建置檢索增強生成(RAG)知識庫、發展專業問答系統、進行模型微調以強化特定領域的理解,以及應用於摘要、分類與知識萃取等任務,進一步促進具深度與專業性的AI應用發展。

數發部表示,此次中研院上架語料包含「政策建議書」涵蓋農業、科技及金融改革等多項政策建議,提供重要議題的深入分析與前瞻性觀點;「研究成果選輯」匯集我國研究亮點,橫跨人文社會、數理及生命科學等領域,讓AI模型能更精準掌握不同領域的知識背景與脈絡。

此外,「研之有物」與「科普專欄」以生動、淺顯易懂方式傳遞科學知識,將艱深內容轉化為易於理解的知識表述,成為AI學習多元語氣與知識轉譯的重要素材;「臺灣史研究所之館藏選粹」蘊含豐富在地歷史與文化記憶,補足模型對臺灣歷史視角的理解;「中研誠信電子報」則補充科研倫理與制度面向,提升模型在倫理議題上的判斷與回應能力。

數發部說明,「臺灣主權AI訓練語料庫」自去年底上線以來,已累計上架逾3,000筆資料集、超過12億詞元(tokens)。為持續豐富語料內容,未來也將持續攜手各機關及學研單位,擴大釋出具臺灣特色及專業價值之文本資料,共同厚植我國主權AI發展基礎。歡迎AI模型訓練者至語料庫申請使用及取得最新資料集,一同拓展更多AI應用可能。

查看原始文章

更多國內相關文章

01

中國對台10措施 總統府:任何交流安排不應附帶政治前提

中央廣播電臺
02

白沙屯媽祖進香爆衝突!1男1女互飆粗口還推人 「香燈腳」全看傻

民視新聞網
03

夜市旁驚魂瞬間!未成年雙載遭撞飛 少女重傷腦出血

CTWANT
04

中國宣布惠台大禮包 總統府回應了

NOWNEWS今日新聞
05

開會1個多小時!00後新人「舉手問這句」 主管當場愣住網戰翻

鏡週刊
06

台南惡保母「打飛、重摔」虐6嬰 11月大男嬰腦萎縮...爸媽慟喊:孩子一生毀了

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...