請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

〈 府城廣角鏡 〉台灣AI大模型不應過度排斥簡體中文資料

中華日報

更新於 2024年03月09日13:21 • 發布於 2024年03月09日13:21

曾志超

中研院長廖俊智表示,已提醒中研院其他AI計畫,勿使用中國大陸資料。(中央社,資料照)

隨著國際上生成式AI呈現火爆式的發展,我國企業、學術界與政府也紛紛建構繁體中文的大模型,有助於減少國際大模型語言的偏見,更適合國人使用。惟部分模型標榜完全排除簡體中文資料,恐已矯枉過正。

由ChatGPT於二0二二底帶動的生成式AI風潮,新創的大型語言模型(LLM)如風起雲湧般的產生,同時也開始浮現AI語言偏見的問題。引用BBC報導,非營利組織「民主與技術中心」(CDT)在其關於AI語言偏見的報告中指出,儘管全球只有百分之十六的人口使用英語,但英語網站卻占全球網站的百分之六十三點七。

而訓練LLM需要透過Common Crawl取得網路免費、開放的資料,英語網站就成為其主要的來源。加上,多數的開發LLM企業都使用英語,會更加深該問題。以MEDA的LLaMa 模型為例,其訓練的資料中,有近九成(百分之八十九點七)的內容是使用英文資料進行訓練,而中文的比例僅有百分之零點一三。

中文網站中又以簡體中文占多數,以由歐洲開發的BLOOM模型為例,語言分布比較多元,涵蓋歐洲各語言以及中文等四十六種語言,英語只占三成,中文比重也比較高,但簡體中文資料占了百分之十六點二,而繁體中文只占百分之零點零五。

若直接使用這些模型,將產生極大的文化差異,以及迥異的價值觀,確實有必要建構以台灣為主體的模型。尤其發生中研院CKIP-Llama-2-7b模型翻車事件,模型回答:國歌是義勇軍進行曲;我國領導人是習近平等離譜的答案。事後中研院長廖俊智表示,已提醒中研院其他AI計畫,勿使用中國資料。似乎將大陸的資料視為洪水猛獸。

繁體中文資料極為有限,除了維基百科與網路資料外,即使加上社群媒體、法律文件;TAIDE模型還使用中央社資料庫、政府報告摘要、科學發展月刊、學術會議論文摘要以及GRB政府研究資訊系統的報告等,資料仍嚴重不足,簡體中文內容就成為補充的選項。

不可否認,中國大陸有嚴格的言論審查機制,並設置網路萬里長城,網路資料不乏政治正確或充滿意識形態的內容,加上兩岸趨於敵對狀態,還有不少對立式言論。Common Crawl時固然有必要限制簡體中文網頁或資料使用,然去除敏感性或高度爭議的內容,仍有許多我國LLM可使用的資料。

其次,並非只有大陸使用簡體中文,部份國家(如新加坡、馬來西亞)也同樣使用,新加坡還將簡體中文列為官方文字之一,若全面排除簡體中文,也將略過這些國家的資料。反而是使用繁體中文的香港與澳門,近年來在中共高度緊縮言論空間,諸多內容也值得商榷。

此外,也有人主張兩岸的用語差異大,例如:大陸法律敘述「項」與「款」的順序剛好與台灣相反。這些用語差異化,只需利用微調(Fine-tuning)、督導式學習(Supervised Learning)等方式即可解決。

至於中研院模型出包,無須過度解讀,蓋該模型並非設計用於通用的模型,而係用於分析明清朝代人物的生平圖譜之用,不僅使用MEDA的Llama-2-7b,還使用了大陸的Atom-7b等二個開源模型為基礎,微調時還使用了大陸的「COIG-PC資料集」和「dolly-15k資料集」,再翻譯成繁體中文。

該模型若用於詢問明清朝代人物,應可表現出色。惟因繁體參數不足且微調不完備,當用於詢問常識性問題,即超乎模型設定的範疇,出現離譜的答案也就不難想像了。

建構符合我國文化、知識、語意、習慣與社會價值的LLM自有其必要,在本土資料量有限下,使用恰當的簡體中文資料,有助於優化模型質量。倘以意識形態悉數排除這些資料,反不利我產業的發展。

(作者為中華經濟與金融協會副秘書長)

查看原始文章

更多國內相關文章

01

桃園獨居婦過年家中跌倒!兒開車300公里報案 鎖匠拆門救人

ETtoday新聞雲
02

鐵飯碗不再香?公務員離職率暴增4成 「年輕、高學歷居多」成隱憂

太報
03

大安區醫美診所驚傳槍擊!開工團拜濺血 負責人腿部中彈、2員工遭波及

鏡週刊
04

女網友要求全程戴套 騙砲渣男關燈裝有戴…做到一半認了下場曝

鏡報
05

說好去泰國玩三天!24歲男慘遭囚禁緬甸「通達園區」 母淚崩

TVBS
06

昔涉賄選遭判當選無效!國民黨前立委病逝享壽71歲 地方人士證實了

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 8

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...