請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Elon Musk:AI 訓練去年已用光全球所有資料 需自行生成數據繼續訓練

Unwire.hk

發布於 2025年01月13日08:32

Elon Musk 最近提到,人工智能公司現正面臨一個日益嚴峻的挑戰:人類知識數據逐漸枯竭。這種情況在去年已經顯現。他建議,科技公司應採用由 AI 模型生成的「合成」數據,以填補數據不足,進一步強化系統。然而 Elon Musk 亦警告,依賴合成數據可能導致「模型崩潰」,即 AI 系統性能下降的風險。

惟 Elon Musk 在接受廣告集團 Stagwell 董事長 Mark Penn 的直播採訪時表示,依賴合成數據可能導致 AI 出現幻覺,因為屆時已經無從稽考到底數據來源純屬幻覺或是真實答案。

目前 OpenAI 的 GPT-4 等 AI 模型主要依賴從互聯網收集的龐大數據進行訓練,透過分析語言模式來預測句子中的下一個詞語。隨著數據日漸枯竭,Elon Musk 認為,解決之道在於運用 AI 自行生成的合成數據(Synthetic data)。Elon Musk 指 AI 可以撰寫文章或提出論點,並為自己評分,透過自我檢討學習完善模型,從而緩解數據來源不足的困境。

Microsoft、Facebook 母公司 Meta、OpenAI 和 Anthropic 等多家科技巨頭,早已開始嘗試利用合成資料訓練 AI 模型。根據科技市場調查調機構 Gartner 估算,2024 年約 60% 的 AI 和數據分析專案已開始使用合成資料作為核心資源。例如 1 月 8 日 Microsoft 開源的 AI 模型「Phi-4」就採用了結合合成資料與現實世界數據訓練。Google 的「Gemma」模型也採用了類似策略,而 Anthropic 則透過部分合成資料,開發出「Claude 3.5 Sonnet」。至於 Meta 則運用 AI 生成數據微調其最新推出的 Llama 系列模型。

儘管如此,專家對這一趨勢持審慎態度。他們指出,倘若過度依賴合成數據,可能會放大既有偏差與錯誤,進而影響 AI 的生成結果準確性,甚至削弱模型的實際應用效果。因此如何在有限的數據資源中平衡創新與可靠性,已成為 AI 發展道路上亟待破解的重要課題。

圖片來源:Scientific American

資料來源:The GuardianFortuneLive@X

======

加入 unwire thread 傾傾科技背後黑暗事

========

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

寫 Code 的話就別聽信人退訂 ChatGPT 換 Gemini

流動日報

嫌輝達晶片太貴 特斯拉重啟Dojo 3超級電腦計畫

VOCO News

Switch 2 玩家必備!Belkin 推出 Pro 級充電保護盒,內建 LCD 螢幕兼可拆式行動電源

Mobile Magazine
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...