請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

白話科技|模型崩潰Model collapse是什麼?為什麼AI「近親繁殖」對模型訓練有毒?

數位時代

更新於 03月02日00:08 • 發布於 03月02日04:12

假如有一天人類全面擁抱人工智慧,開始大量使用生成式AI產出圖像及文字,那麼在未來的史書上,這一天可能會被記載為AI的「末日」。

一項研究指出,當網路上存在越來越多生成式AI產出的內容,最終會導致各個模型被污染、無法正常運轉,只能吐出無意義內容,陷入「模型崩潰」危機。

「模型崩潰」意思是什麼?

模型崩潰(Model collapse)指的是「使用由AI模型生成的內容來訓練AI。」但英國研究團隊在《自然》期刊上發布的研究揭露,這樣的作法會導致模型快速退化,漸漸從產出失真內容惡化到生成無意義的亂碼,最終變得毫無用處。

研究團隊在實驗中,不斷讓AI模型使用上一代模型生成的內容接受訓練,結果不出10代的時間裡,AI模型產出的內容已經從最初輸入的中世紀建築資料,偏離成討論各種大野兔的種類。

「我們發現如果在訓練中不加區分地使用模型產生的內容,會導致模型出現不可逆的缺陷,我們稱之為『模型崩潰』。」團隊在開頭的摘要中提到。

換句話說,隨著生成式AI技術越趨成熟, 越來越多AI生成的內容出現在網路上,AI模型反倒會陷入難以取得合適訓練資料,甚至一不小心誤食「毒物」的窘境

目前AI訓練材料多是從網路上爬取,Reddit執行長近來就抱怨,要禁止微軟等AI公司爬取他們的資料是很痛苦的一件事。

這對AI公司可不是好消息,包括ChatGPT在內眾多模型都依靠爬取網路上的資料進行訓練。稍早社群平台Reddit執行長史蒂夫.霍夫曼(Steve Huffman)才公開表示,阻止微軟等AI公司爬取他們的資料是最痛苦的一件事。

圖解模型崩潰:AI間的「近親繁殖」,為什麼會導致AI模型退化?

為什麼AI生成的內容,對模型本身卻是劇毒?

《TechCrunch》指出,這要回到生成式AI的原理,它們會在訓練資料中學習各種模式(pattern),然後將提示詞與相應的模式進行配對,持續預測最有可能的下個字。問題是模型通常會給出最普遍的答案,假如要求生成一隻狗,那麼模型只會給出黃金獵犬、拉布拉多等常見犬種,不會生成稀有品種出來。

美國杜克大學學者艾蜜莉.溫格(Emily Wenger)就在一篇相關論文中,利用狗狗圖像生成變化解釋了AI模型退化的過程(如下圖)。

圖片中有著各式各樣的犬種,但經由AI訓練生成後,原先比例較高的黃金獵犬會佔據更大比例,而較稀有的犬種如法國鬥牛犬、柯基從中消失。假如利用AI生成的圖像再餵給AI模型,那麼黃金獵犬的比例變得更高,並且最終圖像失真不成犬型。

AI會放大訓練材料中的偏向,進而導致內容失真,甚至模型崩潰。

這也是研究團隊在論文中提到的「早期模型崩潰」,原先在訓練材料中占比較高者會被進一步放大,而少數群體的比例則會減少,變得更為極端化。

而到了「晚期模型崩潰」,模型已經幾乎和原始材料沒有任何相似之處。

模型崩潰有解方嗎?

倘若不採取任何手段,那麼隨AI生成內容充斥網路,模型崩潰將註定發生,但要防止模型被AI生成的內容污染,或許不是沒有辦法。溫格指出,科技公司可以在AI生成內容中嵌入浮水印,以將此排除在訓練材料之外,不過這需要各個公司間協調合作,才能避免誤食外部模型生成的內容。

另外,模型崩潰的現象也揭示一件事:人類生成的訓練材料會越來越珍貴。這意味著建立 AI模型可能有著「先驅優勢」,在生成式AI大量誕生前建立的AI模型,可以從網路上取得更純粹、反映現實的訓練材料,後來者將難以取得訓練資源,或者必須花費心力剔除AI生成的內容

「隨著時間移轉,我們認為訓練模型會越來越困難。」研究團隊表示,「雖然我們可能有更多資料,但很難找到一批沒有偏見的資料。」

延伸閱讀:繼漂綠後,又有新名詞「漂AI」!AI Washing指的是什麼?

資料來源:TechCrunchFinancial TimesNature

延伸閱讀

白話科技|晶背供電是什麼?為何是晶圓「埃米戰爭」殺手鐧?概念股有哪些?
開箱實測|華碩首款AI PC來了!Vivobook S 15(S5507)有何亮點?要價4.9萬值得嗎?
白話科技|「掃臉、指紋」比傳統密碼更安全!免密碼時代來臨,FIDO是什麼?應用在哪裡?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多科技相關文章

01

「研究生拿到碩士就去工作」 博士不足成隱憂,教授薪資遠不如香港、中國 … 林本堅:台灣半導體優勢的基礎在鬆動

今周刊
02

義大利冬奧場地附近岩壁 驚見數千個恐龍足跡

路透社
03

跟不上AI成長動能,失守全球亞軍地位...高速傳輸IC台廠找轉機,搶進資料中心

今周刊
04

數發部「AI百億投資」第一案!台智駕完成1.5億募資,從日本宮古島駛向全球市場

創業小聚
05

USPACE營收3年翻7倍、WeMo 6個月驗證獲利模式...台灣大車用生態圈成形,一站式服務到位

今周刊
06

AI熱潮推升晶片設備需求 亞洲投資規模居全球之冠

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 3

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...