【Grok 4.1 上線】思考模式奪冠、EQ 大增、幻覺率降 3 倍,xAI 要打造更人性化的 AI
由 Elon Musk 創立的 AI 新創公司 xAI 近日正式推出 Grok 4.1 模型,並同步在 grok.com、X 平台,以及 iOS 和 Android 應用程式上線,用戶可以在模型選單中直接選擇「Grok 4.1」。
xAI 表示,Grok 4.1 樹立了對話智慧、情感理解與真實場景實用性的全新標準,目的是提供更敏銳的推理、更豐富的情感智慧和更強的創造性能力,並藉此展現 xAI 在新一代 AI 助手戰場中突圍的野心。
技術亮點 1:更高的情感理解
在技術升級部分,Grok 4.1 最大的亮點之一是「情感理解」能力的明顯提升。新版模型的對話風格更自然,也更接近人類的溝通方式。在各類情緒場景中的反應更加精準,展現出更強的主動情感智慧,包括理解力、洞察力、同理心以及人際互動能力。
在 EQ-Bench3 情商測試中,Grok 4.1 拿下 1586 Elo 的高分,比上一代提升逾 100 分。面對使用者表達思念、悲傷等情緒時,模型不再套用制式化安慰語,而是能捕捉情境細節,讓回應更貼近真實的人類對話,形成更具溫度的互動。
此外,在 Creative Writing v3 創意寫作評估中,Grok 4.1 的表現同樣大幅進步,Elo 分數提升至 1722,比前一版本高出近 600 分,展現出更成熟的語言節奏與更具戲劇張力的敘事能力。
技術亮點 2:幻覺率下降 3 倍
xAI 這次特別聚焦降低模型在資訊查詢情境中產生的事實性幻覺(factual hallucinations)。根據 xAI 數據,Grok 4.1 的幻覺率已從約 12.09% 明顯下降至 4.22%,下降約三倍;事實性評分(FActScore)也同步從 9.89% 下降到 2.97%,顯示模型事實準確度大幅改善。
xAI 說明,這項進展來自全新方法論:團隊採用最先進的代理式推理模型(frontier agentic reasoning models)作為獎勵模型,用以自主評估並大量迭代模型回應品質。這套方法也為 Grok 4.1 帶來結構性升級,進一步強化模型的事實性與整體可靠性。
技術亮點 3:品質與速度全面升級
xAI 表示, Grok 4.1 的速度與準確度都明顯優於先前版本,在實際使用情境中的表現也更加成熟,例如先前 Grok 4.1 在即時流量中接受連續盲測,最終獲得 64.78% 的用戶偏好率,超越前一代模型。
在 AI 模型測驗平台 LMArena 的 Text Leaderboard 上,Grok 4.1 的思考模式以 1483 Elo 登上第一名,比排名最高的非 xAI 模型高出 31 分,展現模型的領先能力。
Grok 4.1 的生態與平台整合
《TestingCatalog》報導指出,Grok 4.1 已正式整合進 X App 與 Grok App,顯示 xAI 正加速深化其跨平台整合策略。xAI 官方也宣布,無論透過網站、行動端或 X 平台,用戶都能同步使用 Grok 4.1,進一步提升跨平台的一致體驗。
這意味著 xAI 正將模型更緊密地嵌入社交生態與日常使用情境。Grok 4.1 著力優化模型的風格、個性、實用性與一致性(coherence in personality),讓 Grok 的角色不再侷限於語言模型本身,而是朝「日常助理」的定位邁進,在即時分析與協作場景中充分發揮其原生整合 X 平台的優勢。
過去,Grok-4 的市場定位主要建立在性能優於當前主流模型、能力進展快速且穩定、採用創新的多代理(multi-agent)系統架構三個面向,這次 Grok 4.1 的全面升級,不只體現在技術上,更代表一次重要的策略轉向:追求更貼近人的情感對話、降低使用成本,並擴大應用場景。
Grok 4.1 設置了新的性能基準,並透過提升情感能力和大幅降低幻覺率,來增加用戶的信任與黏著度。這可能是新一輪 AI 市場競爭的戰略起點,意即在技術卓越性之外,增加人性化體驗作為 AI 模型的關鍵競爭力。
*本文開放合作夥伴轉載,參考資料:xAI、《36Kr》、《Testing Catalog》、《Investing.com》、Swiftask,首圖來源:xAI