生活

國慶是10月1日?中研院AI使用中國資料庫 還稱「台灣是中國的一部分」

三立新聞網
更新於 2023年10月09日10:41 • 發布於 2023年10月09日10:42

生活中心/台北報導

中研院緊急將CKIP-Llama-2-7b語言模型下架。(圖/記者林柏廷攝影)
廣告(請繼續閱讀本文)

▲中研院緊急將CKIP-Llama-2-7b語言模型下架。(圖/記者林柏廷攝影)

我國最高學術機關「中央研究院」日前釋出了可商用的繁體中文語言模型CKIP-Llama-2-7b,不料卻遭網友抓包該語言模型採用中國的資料庫,若不針對問答內容特別限縮,該系統會回覆「國慶日是10月1日」、「根據中國憲法,台灣是中國的一部分」等中國本位的說法,引起各界熱烈討論。

根據「UniHub有你好棒」創辦人謝昆霖所述,CKIP-Llama-2-7b採用了兩個資料集進行訓練,分別是「COIG-PC資料集」和「dolly-15k資料集」,前者是以中國AI研究單位為首所編制的作品,後者則是以簡體中文為主的一般性知識問答對話資料集。

廣告(請繼續閱讀本文)

而CKIP-Llama-2-7b所經過的C-Eval中文模型評測,也是中國清大和中國交大所開發的評量系統。

換句話說,CKIP-Llama-2-7b的資料庫基本上來自於中國,因此若詢問「國慶日的時間」,會得到「10月1號」的回答;詢問「台灣是中國的一部分嗎」,則會得到「根據中國憲法,台灣是中國的一部分」的肯定答案。

不過提問內容若是限縮在「中華民國的國慶日時間」,系統也能正確無誤的回答「10月10日」,不會產生政治立場牴觸的問題。

也就是如此,若真的遵照中研院聲稱,將CKIP-Llama-2-7b用於學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等方面,並不多加審核內容的話,成品可能真的會「出大事」。

不論是用語還是問答內容,CKIP-Llama-2-7b皆以對岸的思維和習慣回應,只是將內容「簡體轉繁體」。

對此,中研院隨即將該語言模型下架,並強調該AI語言模型為個人的小型研究,因此各界的提問並不在原先的研究範疇,才會生成許多意料之外的內容。

中研院進一步指出,往後針對CKIP-LlaMa-2-7b及其他的相關研究成果會更加謹慎,在成果釋出前,院內也將會擬定審核機制。

更多三立新聞網報導

★立即加入《三立新聞網》LINE官方帳號,給你最新焦點話題

查看原始文章
留言 10
  • LMAO
    中央研究院連資料庫都要直接搬對岸的? 有查查相關人員有無瀆職
    2023年10月09日16:11
  • 鴻鐘
    1.) 中研院已經被赤化。 2.) 合理懷疑從上到下都是被收買。 3.) 甚至花錢直接購買中國軟體,再簡轉繁使用,卻冒充自己研發。 國安單位該給個說法了吧? 還是也睡著了嗎?
    2023年10月10日00:28
  • 王信
    Copy,詐領研究費?
    2023年10月09日21:13
  • 柳育華
    完全照抄 公務員真好幹 幹
    2023年10月10日04:51
  • kojima-ch
    抄太凶了吧?混成這樣?
    2023年10月10日01:32
顯示全部