國內

中研院AI竟用中國資料集 廖俊智坦承年輕研究員出包「已學到教訓」

太報
發布於 2023年10月12日04:05 • 政治中心
中研院院長廖俊智。廖瑞祥攝

中研院7日宣布自製的繁中大型語言模型登場,被爆使用的資料集是以中國為主的簡體中文資料、再另外簡轉繁,9日中午即緊急下架。中研院長廖俊智今天(10/12)說明,此事是年輕研究員求快心切,已深切反省,中研院已學到正面教訓,也將成立生成式AI風險研究小組,提供研究人員相關指引,避免類似事件重演。

中研院院長廖俊智列席立法院教文會報告並備質詢,多名立委關切中研院日前推出繁中AI語言模型出包事件。經網友測試,該模型自述是由復旦大學自然語言處理實驗室和上海人工智能實驗室共同開發,地點在在上海人工智能實驗室服務器集,問我國最高領導人竟回答國家主席習近平,挨批太離譜,到底是中研院研發還是抄襲對岸?

廣告(請繼續閱讀本文)

對此,廖俊智回應,主要是一名研究員求快心切,想利用ChatGPT新技術將明清人物的生平進行自動化分析,但軟體尚未完全測試完畢就上網請大家一同測試,產生結果有待商榷,研究員已深切反省,他同時強調,開發AI語言模型非其本意,年輕人也不知道引用中國資料庫的敏感度,才犯下此種疏忽。

針對中研院繁體中文語言模型僅用30萬元去做嗎?廖俊智澄清,30萬元不是生成式AI研究,而是明清歷史研究。至於為深入了解AI對社會的衝擊,日前聲明說將成立「生成式AI風險小組」正在規劃中,會盡快進行,以提供研究人員相關指引。

廖俊智進一步說明,大型語言模型就像人腦,需要給予許多資料、知識的訓練,也需花很多錢請很多人去建構資料庫,但台灣主要是靠國家力量做,該研究員為了歷史研究計畫建構資料集,但經費不夠多,便直接使用中國與明清歷史相關的資料,將簡體轉成繁體加以訓練,想快速展現研究成果,沒考慮到資料庫背後的價值觀也被納入。

廣告(請繼續閱讀本文)

廖俊智強調,中研院也在本次事件學到正面教訓,體認到繁中語言詞彙非常重要,目前與ChatGPT相關的6個研究計畫據了解都沒有引用中國資料集,未來在推動ChatGPT研究也會特別注意盤點,並將配合國科會TAIDE計劃自行開發。

查看原始文章
留言 18
  • Jim
    笑死 這個解釋也太唬爛,有腦袋的都不會買單吧 呵呵
    2023年10月13日01:51
  • Mikado
    民進黨執政直接讓中共進入中研院啦, 抗中保台抗到變中共。
    2023年10月12日12:42
  • 挺管用浪漫爺們;阿進
    “反核長袖躲冷房,萬民烈日當空照!藏電多年尋無蹤,蔡桶只會冷氣嚎!!”#反核穿長袖#反正和我沒關係 🤣🤣🖕🖕性賴…無恥;黨工…Metoo!!核能發電如同…賴打;隨時都可以嗎???🤣🤣🤣🤣🤣#姓賴無恥' A~A,A…A!苟…且當官,委屈了ㄟ!!'🤣🤣🤣🤣🤣🖕🖕🖕🖕🖕啊…笨蛋才無法解決了低薪&高房價問題!! 而~盲從的817🤡🍓的🐍🐀🦠🪳🕷🪰🦟🐸🐸仍然盲從而且歌頌;呆丸貢丸國內錢狽資進詐騙功德黑萊🐷Xi蔡蝗orXi蔡桶: (上聯)終笑人愛~錢! (下聯)禮益臉無…恥! (橫批)自自冉冉!! 笑死了!!當初叫喊~黨,政,軍退出校園的如同現在嘴炮射擊敵軍的侵犯???!" 難怪…現在國家債務數字對於那些在乎自己的權利,名譽及金錢的狗官,已經事不關己!! 昔日倭奴…笑臺人,貪財怕死~愛做官! 今時臺奸…貪愛權,無能施政~愛卸責! 兵險洶洶…需大智,防鄉保民~護安康! 可惜權貴…慣空話,愚弄民粹~陷虛耗! 萬民若想…安樂居,須開民智~驅霸權!#朽木廟堂禽獸食祿#下架詐騙萊🐷黑金黨#下架Xi蔡蝗orXi蔡桶#莫忘世上苦人多#台獨是門好生意
    2023年10月12日12:12
  • 黃上毓
    又是你roc假憲法寄生台灣蛆蟲盜匪詛織
    2023年10月12日11:39
  • 張桓瑋
    最好是他們先前用中國資料訓練你會不知道..
    2023年10月12日11:31
顯示全部