請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

蘋果研究揭示:主流 AI 推理模型其實根本不會思考

流動日報

更新於 06月23日22:45 • 發布於 06月16日11:50 • NewMobileLife

蘋果日前發表的一篇新研究報告 The Illusion of Thinking,對當前備受期待的 AI 推理模型潑下一盆冷水。這份研究指出,當大型推理模型(Large Reasoning Models, LRM)面對愈加複雜的邏輯難題時,竟然會「徹底崩潰」,甚至選擇中途放棄解題。

應對簡單題目表現不及 LLM

根據這份研究,儘管 OpenAI o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 和 Google Gemini Flash Thinking 等模型在中等難度題目中表現不錯,但在簡單題目的表現卻比 LLM 更差。一旦題目難度上升,這些模型竟然會完全「崩潰」,準確率降至零,並主動停止推理。

研究使用的測試題目,包括知名的 Tower of Hanoi(河內塔)、跳棋、運河渡河問題(如狐狸、雞與穀物的經典題型)與積木堆疊,這些都是人類在數學課上常見的經典邏輯遊戲。照理說,一旦掌握解法後,即使增加元素也只是重複應用邏輯。但這些 LRM 模型卻在進行到一定複雜度時完全崩解。

愈難愈不想「思考」

研究人員發現一個令人費解的現象:當題目難度增加,這些模型原本會投入更多思考資源(token),但一旦接近其極限門檻時,模型反而減少推理努力,甚至直接「放棄思考」。即使研究人員提供了演算法提示,讓模型只需照步驟執行,準確率依然無明顯改善。

研究如此指出:「所有推理模型在面對複雜度上升時,都呈現類似的表現模式:準確率逐步下降,並在達到模型特定的複雜門檻後完全崩潰(準確率為零)。」即使提升運算資源也無法突破這一限制。

「思考幻覺」背後

這份研究也為蘋果過去相對保守的 AI 佈局提供了一些線索。儘管 Apple Intelligence 已於 WWDC 推出,但相較於 Google、Samsung 等對 AI 功能大量前置於裝置中的積極策略,蘋果明顯採取不同方向。這可能說明蘋果為何在 LLM 與 LRM 熱潮中始終維持距離——因為他們早已看見這些模型的思考極限。

這也呼應了研究中一段頗具哲思的總結:「AI 模型在數學與程式領域表現出色,但面對真正複雜問題時,它們展現出的,其實只是『思考的幻覺』。」

AGI 路漫漫

這項研究對於 AGI 樂觀主義者而言可謂一記警鐘,卻也不代表 AI 無法推理。正如 AI 專家 Gary Marcus 在其網誌指出:「普通人類在面對 8 層河內塔時也會失誤。」這項研究雖未對比人類在同樣問題上的表現,但至少點出目前模型的瓶頸與錯覺。

Gary Marcus 進一步評論:「這份報告顯示,無論你如何定義 AGI,LLM 目前仍無法取代傳統的、經過良好定義的演算法。」AI 不是萬能的解答,但也不是全然無用,它只是還在學習,還沒能做到真正「思考」。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

最新內容

iPhone 17 Pro 全新照片曝光 突顯未來設計改動

流動日報

彭博公開 2026 年上半年蘋果產品陣容 新 iPhone、iPad、Macbook 登場

流動日報

彭博:M5 MacBook Pro 延期至 2026 年推出

流動日報

Apple 為 AirPods Pro 2 與 AirPods 4 推出全新 Beta 版韌體

流動日報

Gemini 推出照片轉影片功能 靜態圖轉化為 8 秒動態影片

流動日報

Taipower 攜手 RTL,以 GridMetrix® 技術證實:台灣電網可更安全、快速地整合更多再生能源

PR Newswire 美通社

Samsung 確認三摺疊手機將於今年底推出

流動日報

第十二屆世界高速鐵路大會在北京舉行

PR Newswire 美通社

免開箱隔空更新 macOS 蘋果將 Presto 無線更新技術擴展至 Mac

流動日報

「Galaxy Z Flip7」將於8月1日在日本發售!更方便的全螢幕封面畫面

Saiga NAK

AirPods 充電智慧升級 iOS 26 將主動提醒電量不足

流動日報

Moore Global 以一致通過的結果,獲選為年度最佳網路

PR Newswire 美通社

全球能源獎結果出爐,中美俄三國科學家齊獲殊榮

PR Newswire 美通社

「VSPO! FES 2025」將在LaLa arena TOKYO-BAY舉辦!也將發行收錄全體成員演唱的歌曲的原創專輯

Saiga NAK

全新卡包情報終於公開!「Shadowverse Channel Beyond 夏季新卡包發表特別節目」即將開始!

Saiga NAK

Xiaomi Pad 8系列規格曝光 配備 Snapdragon 8 Elite 旗艦平台

am730

Pixelworks上海子公司榮獲當地政府補貼

PR Newswire 美通社

華為入選2025年GartnerR文件與對像存儲平台「客戶之選」,連續四年獲此稱號

PR Newswire 美通社

蘋果頂級 AI 人才遭 Meta 重金挖走 超過 2 億美元鉅額報酬曝光

流動日報

京東方精電亮相2025京東方投資者日,「V+經營策略」擘畫企業價值躍遷新藍圖

PR Newswire 美通社

vivo X300 規格曝光 6.3吋LIPO極窄邊螢幕 全球首款天璣9500細屏旗艦機

am730

歐盟資安新規倒數 Moxa工業無線產品率先過EN 18031認證

PR Newswire 美通社

2025香港動漫電玩節規模倍增 匯聚國際漫畫大師、頂尖潮玩設計師

TODAY布告板

Apple 摺疊式 iPhone 螢幕生產啟動 預計明年問世

流動日報

海信榮膺過去五年全球增長最快的條形音響品牌

PR Newswire 美通社

「MDL.make」全系列電競PC機種皆適用!SSD容量免費升級為2倍的限時活動進行中!

Saiga NAK

恩士迅啟動1.3億新元亞太AI轉型計劃,聚焦「智能化、國際化、啟迪化」

PR Newswire 美通社

美泰兒擴展角色樣貌 推出首款糖尿病芭比娃娃

VOCO News

「Red Bull LEGENDUS STREET FIGHTER 6 頂」冠軍SHAKA與芥川專訪!「產生了一心同體的的默契」

Saiga NAK

揮別巴黎世家轉任Gucci Demna能否改寫品牌困局?

VOCO News

蘋果 Back to School 教育優惠 全年最佳入手 iPad/Mac 時機來了!

流動日報

捷克總理:為資安考量 禁公部門使用DeepSeek

VOCO News

「冰城夏都」哈爾濱:四季皆可游、晝夜都精彩

PR Newswire 美通社

【評測】Pentaconn Coreir Mini Stainless Steel:當金屬耳膠遇上真無線

SPILL

全球精英齊聚!W193學界國際賽推動創新浪潮

PR Newswire 美通社

小島秀夫香港見面會 分享DEATH STRANDING 2製作理念、伍允龍現身助陣

am730

伯恩光學越南海陽生產基地三季度正式運營

PR Newswire 美通社

Grok 4 強勢登場 跑分超越 Claude Opus 4

流動日報

蒙納 2025 Brand Talks創意聚焦香港:匯聚國際與本地創意先鋒,共探字體、品牌設計與情感連結的未來風貌

PR Newswire 美通社

首佳科技(103.HK)加速全球化佈局:歐洲產能自建與併購雙輪驅動,劍指國際鋼簾線市場

PR Newswire 美通社