請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

蘋果研究員質疑AI推理能力 車品覺指不能與人類智能類比

商台新聞

更新於 14分鐘前 • 發布於 9小時前

蘋果的研究員 Mehrdad Farajtabar 等發表論文,對大型語言模型 (LLM) 的推理能力提出質疑,認為LLM 的"推理" 能力,其實只是複雜的模式匹配,不堪一擊。指實驗結果顯示,即使強大的LLM模型,都無法真正理解數學問題的邏輯結構。

阿里雲資深顧問車品覺認為,以現時LLM能力,加上加強學習後,已經不單止是複雜的模式推理,而是擁有智能,即使是複雜模式匹配,因為模型足夠大,已經有同人類相似的推理能力。他說,有科學家提出,無機智能同人類智能不能完全類比,目前人工智能顯示的能力,已經是要有足夠智能的人類先可以做到,如果停留於爭論是否只是複雜模式匹配,並無意義。

Farajtabar 等論文作者研究了包括 Llama、Phi、Gemma、Mistral 等開源模型,以及 GPT-4o 和 o1 系列等閉源模型。在 OpenAI 發布 GSM8K數據集的3年,模型的性能顯著提升,但 Farajtabar 認為,並不能證明 LLM 的推理能力真正提高。

GSM8K 是 “Grade School Math 8K” 的縮寫,是一個用來評估數學問題解決能力的數據集,主要包含大約8000道小學級別的數學題目,通常用於訓練和測試機器學習模型,特別是在自然語言處理領域的模型,如何處理和解決數學問題。

為了測試 LLM 的數學推理能力,Farajtabar 和團隊開發一個名為 GSM-Symbolic 的新工具,生成 50 個獨特的集合,本質上類似 GSM8K 示例,但有不同的值和名稱。實驗結果顯示,當前 GSM8K 的準確率並不可靠,不同模型表現差異巨大,添加一個看似相關,但不影響整體推理的子句,所有模型的性能都顯著下降,說明即使是強大的 o1 模型,也無法真正理解數學問題的邏輯結構。

Farajtabar 認為,LLM 的表現,更好的解釋是複雜的模式匹配,而不是真正的邏輯推理。 即使增加數據、參數和計算量,或者使用更好的訓練數據,也只是得到"更好的模式匹配器",而不是"更好的推理器"。

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 0

沒有留言。