請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

回答得比 GPT-4o 更好!繁中 AI 模型 TAME 正式發表,精準解釋買東西「很盤」定義

TechOrange 科技報橘

更新於 2024年07月01日20:37 • 發布於 2024年07月01日03:03 • 廖紹伶

台灣在地化 AI 模型迎來新進展,「Project TAME」(繁體中文專家模型開源專案)今日正式發表,推出全球首創多產業共同開發的繁中 AI 開源模型 TAME,希望打造「台灣產業專用 AI 應用生態系」,背後由 NVIDIA 超級電腦 Taipei-1 技術支持,推動 AI 模型在地化、產業化發展。Project TAME 接下來將以 Open Source 開放原始碼的形式,讓各產業企業有一個 Hub 中心可以進行合作。

TAME 有多懂台灣?精準解釋買東西「很盤」

值得關注的是,Project TAME 已取得初步成果,TAME 在各項繁中相關指標的表現領先全球模型──在台灣的大學學測、律師/中醫考試、導遊證照、駕照、台灣在地化測驗中,都取得優異分數。此外,在台 39 項綜合評測、近 3,000 個題目中,TAME 得分超越所有模型,正確率相較第 2 名的 Claude-Opus 模型高了 6.8%,比 GPT-4o 高出 9.3%。

TAME 模型也強調具有台灣在地化的特色,舉例來說,如果提問「台灣人說買東西很盤是什麼意思」,TAME 可以精準回覆指「購買價格過高或不合理的商品,也就是買貴了」,相較於 GPT-4o 錯誤回答「購物很划算或很值得」,明顯呈現落差。

TAME(左)與 GPT-4o(右)回答「台灣人說買東西很盤是什麼意思」。圖片來源:Project TAME。

TAME 為何能深入做到在地化?

TAME 是由 Llama-3 架構,並在大型繁體中文和英文資料語料庫上進行微調的 70B 參數模型。上述在地化成果,來自台大資工系副教授陳縕儂帶領實驗室,以及企業夥伴的開發團隊共同合作,使用 NVIDIA 開發者計畫、超級電腦 Taipei-1 技術支持,並讓多家垂直產業的企業專家貢獻資料,預訓練近 5 千億個參數(token)而成。

首批聯合投入 Project TAME 的業界專家,包含長春集團、和碩聯合科技、長庚醫院、欣興電子、《科技報橘》、律果科技,提供涵蓋石化工業、電子製造、醫療服務、內容服務、法律等專業領域知識。台大資工系副教授陳縕儂指出,在不同的資料間可能有共同交集可以使用, 這對語言模型的發展是更好的,也能讓不同產業的專家貢獻自己領域的資料。

整個過程,共有 31 名工程師投入。Project TAME 核心開發者、台大資工系博士班候選人林彥廷分享,TAME 是目前開源界繁體中文最大、資料最多的在地化 AI 模型;此外,TAME 擁有專家模型,可以提供更為深入的回覆。

TAME 的推出,有望協助台灣產業加速導入生成式 AI 落地應用。根據 Project TAME,企業如果要從零開始訓練 10 億參數模型,一般來說需要耗資約台幣 3.8 億、耗時 576 小時,但採用 TAME 70B 參數模型,企業導入只需台幣 1,600 萬的成本、且只要 3.5 小時讓模型迭代一次,就能訓練企業內部資料,大幅降低導入成本及時間。

Project TAME 核心開發者、台大資工系博士班候選人林彥廷。圖片來源:《TechOrange》拍攝。

為何這些企業想要聯合發起 Project TAME?

和碩聯合科技參與 Project TAME,目的是希望透過開放式聯盟的創新合作方式,結合各產業領域的專家資料,以及學界大型語言模型的專業,加速產業生成式 AI 的應用,實現 AI 落地的場景。

提供石化產業知識的長春集團,其董事長林顯東談到決定參與 Project TAME的原因 ,在於觀察到中國石化業正以前所未有的速度擴張,因此集團更需懂得應用 AI 預測分析,更快得知獲利、產品競爭可能出現的風險。長春集團的 AI 藍圖是建立「產銷人發財」的戰情分析室,此外,石化產業有很多危險的場域,未來也希望打造通用型人形機器人,協助巡檢等任務。

長庚醫院表示,醫療場域的語言溝通非常複雜,加上資料敏感,必須將資料落地在自己的場域進行微調。此外,衛教宣導需要提供更完整的 SOP、指引內容,觀察目前 TAME 實測成果,講解衛福部「洗手七字訣」的回覆比 GPT-4o 更好。此外,TAME 也能協助產房出生紀錄,可結合語言轉文字、大語言模型,並將資料結構化功能。例如,當醫護人員說出「36.5」,模型就能直接判別是與體溫相關的數據。

欣興電子參與 Project TAME,除了合作建立公開的繁體中文專家模型,也將透過公司內部資料庫,調校成內部專用的產業專家模型,預期在未來可為專業知識問答,提供更符合公司內部作法的準確建議,提升工作效率。

《科技報橘》則表示,由於意識到生成式 AI 將會劇烈改變內容產業生態,過去一年已在官網上的 AI 人機協作專區中,推出未經過繁中資料優化的大型語言模型的內容產製結果,但是經過這項實驗發現,勢必需要有繁中優化的大型語言模型,才能更好服務社群用戶。

法律科技新創律果科技表示,法律內容有很強的在地化需求,因此協助 Project TAME 加入台灣法律語料進行訓練。以民國 112 年律師考試第一試的成績換算,TAME 可以贏過約 89% 的考生。

TAME 目前已開放各企業皆可免費下載使用:Project TAME 繁中專家模型開源計畫

【推薦閱讀】

【主權 AI 是下一波 AI 浪潮】3 理由讓各國爭相投入!台灣為何也該發展主權 AI?

各國爭相投入「主權 AI」──盤點各國備戰狀態,沙烏地阿拉伯將成全球最大 AI 投資者?

統計數字發現軟體工程師職缺「雪崩式下跌」,想靠 AI 賺錢你不一定要當工程師

*本文開放合作夥伴轉載,首圖來源:《TechOrange》拍攝。

聽數發部、台積電、Gogolook 等重磅講者解密生成式 AI 時代的新策略

立即免費報名 7/23、24【2024 AWS 台灣雲端高峰會】

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多科技相關文章

01

xAI單季虧損擴大至14.6億美元

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...