請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

xAI發布Grok 4.1!性能「打趴Gemini」登頂榜首:跟前一代差在哪?為何幻覺更少了?

數位時代

更新於 2025年11月18日04:26 • 發布於 2025年11月18日03:58

重點一:xAI 推出 Grok 4.1 與 Grok 4.1 Thinking,免費開放且宣稱大幅降低幻覺。

重點二:依 LMArena Text Arena 榜單,Grok 4.1 Thinking 榜首(1510 分),Grok 4.1 排第 19(1437 分)。

重點三:付費用戶可獲較少限制;xAI稱 Grok 4.1 較前版幻覺率降至三分之一。

Elon Musk 旗下 xAI 宣布推出兩款模型:Grok 4.1 與 Grok 4.1 Thinking(思考版),並以免費形式開放使用,付費用戶則享有較低使用限制。

官方強調,此次升級在品質與速度均有進展,其中最重要的指標是「降低幻覺」:xAI 表示 Grok 4.1 相較前代模型,產生錯誤內容的機率下降至約三分之一,為近期最具代表性的版本之一。

雖然頁面以「顯著降低」描述成果,但尚未同步公開具體數值、區間、或統計顯著性檢定方法。整體訊息傳達方向是:在非推理(fast)模型加入搜尋工具、並透過後訓練,能提升面向事實的回答穩定度,降低重大與次要錯誤的出現機率。

至於新模型表現如何?

根據 lmarena.ai(LMSYS Chatbot Arena)在 X 公布最新「Text Arena」排行榜,Grok 4.1(thinking)以總分1483 登上榜首;在難度更高的「Arena Expert」榜單,該版本同樣以總分1510 奪冠,顯示其於綜合語言理解、推理與生成品質的競爭力。

同系列的 Grok 4.1(一般版)在「Text Arena」位居第2、總分1465,「Expert」榜第19、總分1437

lmarena.ai 並指出,相較兩個月前進入 Arena 的 Grok 4 fast,最新成績「提升超過 40 分」,意味模型在對話穩定性、指令遵循與高難度提示(Hard Prompts)等面向有明顯躍升。

lmarena.ai補充,Grok 4.1(thinking)在「高難度提示詞、編碼、指令執行、創意寫作」等概覽類別表現亮眼,且在「職業排行榜」多數職業領域顯示強勢,

Grok 4.1為何幻覺更少了?

頁面明確交代評測框架:採用「非推理模型+網路搜尋工具」進行回答,並以「幻覺率」作為核心品質指標。

白話來說,就是讓「不做深度推理的快速模型」搭配「網路搜尋工具」去回答問題,然後把回答裡每一句可被查證的小事實(原子主張)逐一比對,看有沒有重大或次要錯誤,最後把各題的錯誤比例平均,這個平均值就是「幻覺率」。

此做法符合目前檢核事實一致性的主流思路,但細節如原子主張切分準則、標註者一致性(IAA)、與錯誤分級標準,頁面未見公開;因此,外界暫時只能根據定義理解方向,尚無法重現驗證。

強敵環伺!Gemini 3.0成關注焦點

此次雙版本免費釋出,明確強化 xAI 在用戶擴張上的策略,為開發者與一般用戶提供入門門檻更低的使用選項;同時透過付費方案降低頻率與容量限制,維持商業化的可持續性。

從產品訊息來看,Grok 4.1 的訴求為「更可靠、更快速」,核心賣點鎖定降低幻覺與整體表現提升。「Thinking」版則展現更高階的推理與對話品質,反映出 xAI 對多場景推理能力的重視。

另一方面,競品壓力不減:OpenAI 持續迭代至 GPT 5.1,Google 亦可能以 Gemini 3.0 再度抬高性能天花板。對使用者而言,短期可將 Grok 4.1 視為一個在可靠性上有所強化、且擁有可觀基準成績的免費選項;中期則關注其在更廣泛任務中的真實表現與資源限制的影響。

延伸閱讀:馬斯克又出手!SpaceX豪擲20億美元投資xAI,估值衝上3.3兆元

「地表最強模型」來了!Grok-3挾3種模式發布,馬斯克:你100%會愛上它

資料來源:xAILMarenaBleep Computer

本文初稿為AI編撰,整理.編輯/ 李先泰

延伸閱讀

貝佐斯參戰!出任AI新創「普羅米修斯計畫」CEO:自掏腰包投資62億美元,全為了「實體任務」?
加入黃仁勳麾下!台積電前副總李文如傳11/18降落輝達:她有何資歷?為何蘋果、高通⋯都要延攬她?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

快訊/呼~不用擠爆加油站了! 中油宣布下週油價凍漲!

鏡報
02

中東燒出新局!專家揭5檔神股「漲幅恐噴發30%」進場時機曝

民視新聞網
03

買1股現賺800元!「這檔航空股」零股爆增594%

民視新聞網
04

哈日族哭哭!「旅日神卡」宣告退場 新光日航聯名卡「這天」起換發新卡

三立新聞網
05

GTC 2026 黃仁勳預告將發表前所未見的晶片

NOWNEWS今日新聞
06

美伊狂戰「市場恐懼我貪婪」?專家揭「巴菲特理論真相」1操作恐GG

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...