生成式 AI 技術崛起,各國致力發展與自身語言相關的大型語言模型,台灣有不少機關和企業著手發展繁體中文模型和應用。
AI 公司 iKala 近期推出的繁體中文驗證集「TMMLU+」正式被 AI 語言模型學術會議 COLM(Conference on Language Modeling)接受,在眾多論文審查過程中,獲得前 10% 的高分。
有鑑於各國語言差異性,台灣特有的文化和用字習慣,例如「8+9」、「北車」或台語等,建構繁體中文模型過程需要專屬驗證集調校,才能獲得更精準的 AI 應用成果。
iKala 內部 AI 團隊以聯發科所推出的框架 TMMLU 為基礎,透過社群媒體資料深入擴展,涵蓋更多台灣在地用語和人文背景,讓新開發的繁體中文驗證集 TMMLU+ 更貼近繁體中文的詞語情境和表達方式,加上開源形式,可協助台灣企業開發繁體中文模型時,使用 TMMLU+ 做為模型驗證的工具,貼近在地需求。
iKala 自 2023 年 10 月著手開發 TMMLU+,2024 年春季送審至 COLM。COLM 由來自 Google DeepMind、Meta、微軟及常春藤等 AI 領域的知名學者共同成立,是極具公信力的 AI 組織。iKala 的 AI 團隊在評審過程特別針對繁體中文的字形、用法等特色進行詳細說明,闡述價值所在,進而在激烈競爭中脫穎而出。
iKala 多年來深耕 AI 技術獲得肯定,TMMLU+ 目前被多家台廠採用,進行大語言模型評測,為台灣企業提供可靠且統一的驗證標準。
(首圖為 iKala 共同創辦人暨執行長程世嘉,首圖來源:科技新報)