離開 OpenAI 另起爐灶的 AI 科學家 Ilya Sutskever,近日罕見公開演說,提到 AI 的預訓練時代即將結束,因為目前訓練大型語言模型學習的網路資料量即將到達極限,將迫使 AI 的訓練方式轉變。那麼,推動 AI 的下一個關鍵是什麼? Ilya 點出的三個方向之一是「合成資料(synthetic data)」。
從人工標記到電腦合成,模型訓練資料問題待解
合成資料是一種資料生成技術,透過 AI 產生與真實資料相近的人造資料。事實上,針對 AI 不斷膨脹的資料需求,最初討論的焦點是聘用真人來標記資料,甚至成為一門生意,例如 Uber 為此建立一個部門招募承包商,甚至提供外部服務。
然而,新的、真實的資料越來越難取得,因為人類標記速度有限,加上授權昂貴、許多網路公開資料開始阻擋 AI 爬蟲,AI 巨頭也正採用合成資料因應──微軟的 Phi 模型、Google 的 Gemma 模型,部分是合成資料訓練;Meta 的 Llama 3.1 模型、ChatGPT 的 Canvas 功能也經合成資料微調。NVIDIA 更在今年推出一系列產生合成訓練資料的模型。
艾倫人工智慧研究所高級研究科學家 Luca Soldaini 表示,合成資料可以快速幫助人類判斷需要哪些資料來實現特定的模型行為。這似乎也成趨勢──調研機構 Gartner 預測 2024 年 AI 資料將有 60% 是合成的;另一調查顯示其市場價值可能達 23.4 億美元。不過,合成資料乍看能帶來無限資料、解決 AI 瓶頸,使用上仍有風險。
合成資料並非萬能,該怎麼更安全使用?
根據《TechCrunch》,合成資料和所有 AI 一樣面臨著「垃圾進、垃圾出」的問題。萊斯大學和史丹佛大學的研究人員在 2023 年發現,AI 模型訓練過程中,過度依賴合成數據可能會打造出「品質和多樣性逐漸下降」的模型。
此外,複雜的 AI 模型例如 OpenAI 的 o1,採用合成資料會有額外風險,可能產生更難發現的幻覺。華盛頓大學博士生 Os Keyes 表示,尤其是在幻覺來源不容易識別的情況下,合成資料可能降低模型準確性,「對 o1 這樣的模型,開發者自己不一定能解釋原因。」
然而若必須使用,該注意什麼?Soldaini 指出,原始的合成資料並不可信,要「安全」使用就必須徹底審查、整理和過濾,並且最好和新鮮的真實資料合併使用。「合成資料不是一台會自我改進的機器,而只是一台機器,」投入訓練 AI 之前,必須檢查生成的數據、迭代生成過程,並確認刪除低品質資料的保障措施。
當然,推進 AI 發展的關鍵不只合成資料,Ilya 還提到了 AI 代理、推理時運算的創新方向。
不過,跑在 AI 浪潮最前端的 OpenAI 執行長奧特曼曾表示,AI 有一天會產生足夠好的合成資料來有效訓練自己。由於目前還沒有大型 AI 實驗室推出完全基於合成資料訓練的模型,外界認為仍需資源投入,確保模型的訓練不會在未來出錯。
【推薦閱讀】
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、《The Verge》、seremot,首圖來源:Unsplash。