請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

【繁中專家模型開源計畫 Project TAME 學術要角】台大資訊工程學系副教授陳縕儂:從兩個隱憂,剖析「台灣為什麼需要自己的繁中大型語言模型?」

TechOrange 科技報橘

更新於 07月02日14:14 • 發布於 07月01日01:32 • 全新一週 Podcast
【繁中專家模型開源計畫 Project TAME 學術要角】台大資訊工程學系副教授陳縕儂:從兩個隱憂,剖析「台灣為什麼需要自己的繁中大型語言模型?」

由長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘聯合發起,與台大資工系、台大資管系及律果科技合作,在 NVIDIA 技術支持下訓練的「繁體中文專家模型開源專案 TAiwan Mixture of Experts(後簡稱 Project TAME )」,已正式對外發布。擔任 Project TAME 在學術界研發重要角色的台大資訊工程學系副教授陳縕儂接受科技報橘社長戴季全的專訪,特別解析台灣為什麼需要開發自己的繁體中文大型語言模型。

陳縕儂分析,各國決定發展大型語言模型,是因為發現內部龐大的需求。例如日本積極投入這個領域,因為日本人最習慣使用日文,導入其他語言模型雖然也具備日文能力,但由於日文在尊稱和語法上的複雜性,仍需由本地人進行微調,讓語言模型更符合真實需求。因此,日本很早就看見發展日文大型語言模型的必要性,目前也有許多新創和大公司開始布局推動。

而台灣使用的語言是繁體中文,也有必要有繁體中文大型語言模型來符合台灣本土需求。今年年初因緣際會,產業界的長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘聯合發起,與學術界的台大資工系、台大資管系一起推動開發 Project TAME,使用 NVIDIA 開發者計畫技術支持,讓多家垂直產業各異的企業專家貢獻專業領域的資料,針對台灣繁體中文表現,訓練繁中大型語言專家模型。包括長春集團、和碩聯合科技、欣興電子、長庚醫院、科技報橘、律果科技即為石化工業、電子製造、醫療服務、內容服務、法律等各產業代表,成為首批聯合投入 Project TAME 繁體中文模型訓練的業界專家角色。在完全沒有簽約的約束下,業界跟學界紛紛自發性合作,短短數月推動下,Project TAME 繁體中文模型已有初步具體顯著成果,在各項繁中相關指標中領先全球模型。

陳縕儂表示,「 Project TAME 決定採用開源碼,讓夥伴有一個 HUB 可以進行合作,」她指出過去台灣產業界習慣單打獨鬥,這種方式在某些技術上可行,但如果應用在語言模型就難以體現多元化的優勢,「單打獨鬥可以讓你的模型調到 A 或 B,但 A 和 B 之間可能有一些共同的交集,如果能夠使用到 A、B 的資料,會提升模型成長的幅度,而且如果不同產業、不同專家貢獻自己的資料,可以讓模型在不同領域、不同主題上都有所了解。」

台灣沒有繁中大型語言模型會發生什麼事?

陳縕儂指出,台灣雖然沒有自己的繁中大型語言模型,但是仍可持續發展 AI 應用,因為全球有非常多不同的語言模型,而且大部分語言模型都可以了解繁體中文,不過這樣的情況會產生兩個隱憂。

第一是隱憂是,台灣的人口基數、市場比較小,國外的語言模型缺乏足夠量能照顧台灣,「比如說有一些情況,我們很明顯知道只要把這個資料放進去訓練,可能就會變好了,但就變成我們國家可能需要跟他們(國外)談合作,我們把這些東西提供給你們,你們把它放進去,讓這個模型變好。只是這樣子就會變成有核心技術掌握在別人手上,你自己要動的時候,每次都還要找這個專家來幫你調,就會比較麻煩。」

第二個隱憂是,如果台灣不發展自己的繁體中文語言模型,很多企業可能就會開始採用中國的語言模型,而因為不知道中國語言模型訓練了什麼資料,或者是做了哪些調整,導致最後的結果可能不符合台灣的生活型態,「大部分中國想傳遞的理念和價值觀可能會轉換成比較單一的,但台灣其實是擁有非常多元價值觀的一個環境。」

因此陳縕儂認為,如果我們有自己的繁中大型語言模型,以台灣本土的資料做訓練,「我們的語言模型它說出來的話也會比較多元,這樣才能鼓勵大家用不同的角度去思考,更鼓勵這樣多元的文化。如果你一直用同一個語言模型,然後它一直傳遞單一的文化,漸漸的大家就會全部都被洗腦成那個方向,或是你就習慣成大家都是這樣講,但保有這種文化或是語言的多元性,其實才會更好。」

繁體中文專家模型 Project TAME 正式對外發布後,目前已開放各企業皆可免費下載使用「繁體中文專家模型 Project TAME」(https://github.com/MiuLab/Taiwan-LLM)、模型聊天頁面(https://www.twllm.com)、以及由亞太智能機器(APMIC)率先整合 Project TAME,提供聊天機器人測試頁(http://techorange.com/tame)。

(責任編輯:曾品潔)

立即報名 7/18 【新漢 AIoT 轉型論壇】

與新漢集團董事長、安恩嘉 AI 影像總經理一同掌握雙軸轉型第一手成功經驗談!

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 0

沒有留言。