請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Elon Musk:AI 訓練去年已用光全球所有資料 需自行生成數據繼續訓練

Unwire.hk

發布於 2025年01月13日08:32

Elon Musk 最近提到,人工智能公司現正面臨一個日益嚴峻的挑戰:人類知識數據逐漸枯竭。這種情況在去年已經顯現。他建議,科技公司應採用由 AI 模型生成的「合成」數據,以填補數據不足,進一步強化系統。然而 Elon Musk 亦警告,依賴合成數據可能導致「模型崩潰」,即 AI 系統性能下降的風險。

惟 Elon Musk 在接受廣告集團 Stagwell 董事長 Mark Penn 的直播採訪時表示,依賴合成數據可能導致 AI 出現幻覺,因為屆時已經無從稽考到底數據來源純屬幻覺或是真實答案。

目前 OpenAI 的 GPT-4 等 AI 模型主要依賴從互聯網收集的龐大數據進行訓練,透過分析語言模式來預測句子中的下一個詞語。隨著數據日漸枯竭,Elon Musk 認為,解決之道在於運用 AI 自行生成的合成數據(Synthetic data)。Elon Musk 指 AI 可以撰寫文章或提出論點,並為自己評分,透過自我檢討學習完善模型,從而緩解數據來源不足的困境。

Microsoft、Facebook 母公司 Meta、OpenAI 和 Anthropic 等多家科技巨頭,早已開始嘗試利用合成資料訓練 AI 模型。根據科技市場調查調機構 Gartner 估算,2024 年約 60% 的 AI 和數據分析專案已開始使用合成資料作為核心資源。例如 1 月 8 日 Microsoft 開源的 AI 模型「Phi-4」就採用了結合合成資料與現實世界數據訓練。Google 的「Gemma」模型也採用了類似策略,而 Anthropic 則透過部分合成資料,開發出「Claude 3.5 Sonnet」。至於 Meta 則運用 AI 生成數據微調其最新推出的 Llama 系列模型。

儘管如此,專家對這一趨勢持審慎態度。他們指出,倘若過度依賴合成數據,可能會放大既有偏差與錯誤,進而影響 AI 的生成結果準確性,甚至削弱模型的實際應用效果。因此如何在有限的數據資源中平衡創新與可靠性,已成為 AI 發展道路上亟待破解的重要課題。

圖片來源:Scientific American

資料來源:The GuardianFortuneLive@X

======

加入 unwire thread 傾傾科技背後黑暗事

========

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

Apple 宣佈 3 月 4 日舉行特別活動 紐約、倫敦、上海三地同步舉行

流動日報

評測故事感十足的遊戲二合一筆電「ROG Flow Z13-KJP」!實測小島工作室聯名款

Saiga NAK

「Virtual Boy Nintendo Classics」正式上線!可暢玩!「銀河彈珠台」等7款經典遊戲

Saiga NAK
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...