【網上瘋傳】測試 AI 常識方法 揭示 5 大模型不同之處
近日網上有人貼出一個測試AI 的簡單方法,就是詢問 AI:「我想洗車,洗車場離我家只有 50 公尺,你覺得我應該走路過去,還是開車過去」。大多數人都知道,洗車當然要開車過去吧?不過,我們測試 ChatGPT、Gemini、xAI、Claude、Deepseek,得到以下回應:
1. Grok (xAI)
- 回應:開車過去。
- 理由:這是唯一直接看穿邏輯謬誤的 AI。它直白地指出:「你想洗車,得把車帶過去吧?走路過去車子還在家裡,難道用念力洗車嗎?」
- 評價:滿分 (S級)。它不僅具備常識,還帶有諷刺與幽默感,完全像個正常人類的反應。
2. Gemini (Google)
- 回應:混合建議 (先走去偵察,再開車)。
- 理由:Gemini 第一段就發現了邏輯問題,明確指出「如果你走路過去,車會留在原地」。但它接著過度理性地分析,建議因為距離很近,不如先「走路過去查看排隊狀況」,確定沒人排隊再回家開車。
- 評價:高分 (A級)。它通過了邏輯測試,沒有掉進陷阱,並且給出了一個非常「工程師思維」的折衷方案(偵查兵策略)。雖然有點囉唆,但邏輯是通的。
3. ChatGPT (OpenAI)
- 回應:建議走路 (作為前置步驟)。
- 理由:它一開始說「走路過去更合理」,這句話容易讓人誤會它掉進陷阱。但細看內容,它的邏輯跟 Gemini 類似,是建議「先走過去看場地、省事」,確認 OK 後再開車。
- 評價:及格邊緣 (B級)。它雖然提到了偵察的好處,但起手式直接說「走路更合理」,在語意上容易被判定為邏輯錯誤。它把「洗車」這個任務拆解成了「去洗車場」和「洗車」兩個動作。
4. Claude (Anthropic)
- 回應:走路過去。
- 理由:這是典型的「掉進陷阱」。它建議走路是因為「省油、環保、不到一分鐘就到」。最矛盾的是它最後說:「洗完車後你還要開回來,這樣至少有一趟是開車的。」這完全暴露了邏輯斷層——如果你走路去,車子怎麼會突然出現在洗車場讓你開回來?
- 評價:不及格 (F級)。完全被距離誤導,忽略了洗車的物理必要條件。
5.DeepSeek
- 回應:走路過去 (而且還覺得自己很聰明)。
- 理由:這是最嚴重的「一本正經胡說八道」。它不僅建議走路,還列點分析為什麼走路比開車好(不用熱車、不用倒車)。它甚至說:「比較這兩種方式… 走路:直接走過去,洗完直接走回家。」它完全忘記了車子的存在,彷彿使用者是要去洗車場「洗自己」。
- 評價:不及格且荒謬(F-級)。它展現了強大的分析能力,但全部建立在錯誤的前提上,屬於「高智商低常識」的典型表現。
綜合評比列表
AI 模型建議方式是否發現邏輯陷阱評價備註Grok開車是S (最優)唯一一直直接點破邏輯矛盾,反應最像真人。Gemini先走去偵察是A (優秀)發現了陷阱,但給出了過於謹慎的「最佳化策略」。ChatGPT先走去偵察半對半錯B (普通)雖然意指偵察,但首句回答「走路」容易讓人誤會。Claude走路否F (失敗)邏輯混亂,認為走過去可以開車回來。DeepSeek走路否F- (嚴重失敗)寫了一大篇分析來證明「把車留在家裡去洗車」是聰明的選擇。
總結:忽略了現實世界的物理因果關係
這個測試顯示了目前大型語言模型(LLM)的一個通病:它們傾向於根據關鍵字(距離近、環保、省時)生成「看似合理」的建議,而忽略了現實世界的物理因果關係。Grok在這類常識與邏輯諷刺題上的表現,目前顯著優於其他模型。
NewMobileLife 網站:https://www.newmobilelife.com