蘋果研究員質疑AI推理能力車品覺指不能與人類智能類比

蘋果的研究員 Mehrdad Farajtabar 等發表論文，對大型語言模型 (LLM) 的推理能力提出質疑，認為LLM 的"推理" 能力，其實只是複雜的模式匹配，不堪一擊。指實驗結果顯示，即使強大的LLM模型，都無法真正理解數學問題的邏輯結構。

阿里雲資深顧問車品覺認為，以現時LLM能力，加上加強學習後，已經不單止是複雜的模式推理，而是擁有智能，即使是複雜模式匹配，因為模型足夠大，已經有同人類相似的推理能力。他說，有科學家提出，無機智能同人類智能不能完全類比，目前人工智能顯示的能力，已經是要有足夠智能的人類先可以做到，如果停留於爭論是否只是複雜模式匹配，並無意義。

Farajtabar 等論文作者研究了包括 Llama、Phi、Gemma、Mistral 等開源模型，以及 GPT-4o 和 o1 系列等閉源模型。在 OpenAI 發布 GSM8K數據集的3年，模型的性能顯著提升，但 Farajtabar 認為，並不能證明 LLM 的推理能力真正提高。

GSM8K 是 “Grade School Math 8K” 的縮寫，是一個用來評估數學問題解決能力的數據集，主要包含大約8000道小學級別的數學題目，通常用於訓練和測試機器學習模型，特別是在自然語言處理領域的模型，如何處理和解決數學問題。

為了測試 LLM 的數學推理能力，Farajtabar 和團隊開發一個名為 GSM-Symbolic 的新工具，生成 50 個獨特的集合，本質上類似 GSM8K 示例，但有不同的值和名稱。實驗結果顯示，當前 GSM8K 的準確率並不可靠，不同模型表現差異巨大，添加一個看似相關，但不影響整體推理的子句，所有模型的性能都顯著下降，說明即使是強大的 o1 模型，也無法真正理解數學問題的邏輯結構。

Farajtabar 認為，LLM 的表現，更好的解釋是複雜的模式匹配，而不是真正的邏輯推理。即使增加數據、參數和計算量，或者使用更好的訓練數據，也只是得到"更好的模式匹配器"，而不是"更好的推理器"。

請更新您的瀏覽器

財經

商台新聞

留言 0

請更新您的瀏覽器

財經

蘋果研究員質疑AI推理能力 車品覺指不能與人類智能類比

商台新聞

留言 0

蘋果研究員質疑AI推理能力車品覺指不能與人類智能類比