請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

xAI 推出Grok 4.20測試版!首創「四個辯論助理」模式:怎麼運作的?如何免費試用?

數位時代

更新於 14小時前 • 發布於 14小時前

重點一:xAI 推出四代理協作架構的 Grok 4.20,透過「AI 辯論」機制將幻覺率壓低約 65%。

重點二:Grok 4.20 在 Alpha Arena 實盤交易競賽中成為唯一獲利模型,整體績效超越 OpenAI、Google 參賽模型。

重點三:四代理版 Grok 4.20 已向免費用戶開放,付費方案則支援最高 16 代理,為大型模型競賽引入「多代理架構戰」。

伊隆·馬斯克 (Elon Musk) 旗下人工智慧新創 xAI 近日悄然上線新一代大語言模型 Grok 4.20,主打以「多代理辯論」取代「單一模型一次算完」的傳統推理方式。使用者提出問題後,將由四個具不同專長的 AI 代理同時展開分析,在背景裡互相質疑、修正,最後由統籌代理整合出單一答案。

xAI 表示,這種架構在早期測試中可讓幻覺案例減少約 65%;Grok 4.20 亦在一場實盤股票交易競賽中成為唯一獲利模型,表現壓過 OpenAI 與 Google 的參賽系統。

更具策略意味的是,這套多代理架構並非限於高階企業版,而是直接向免費用戶開放,付費訂閱則可進一步解鎖「16 代理重裝模式」,為生成式 AI 的產品形態與競爭焦點帶來明顯轉向。

四代理分工協作:從單一大腦走向「AI 辯論小組」

Grok 4.20 的最大變化,在於把過去由單一模型包辦的推理流程,拆解給四個具明確職責的代理共同完成。

  • Grok(協調員):相當於小隊隊長,負責把你的問題拆解成子任務,分配給其他代理人,當他們之間有衝突或意見不同時,會協調、解決分歧,最後整理出一個對你來說可讀的「最終答案」。
  • Harper(研究員):專門負責上網「找資料的人」。他會從網路與 X 上每天大約 6,800 萬則英文貼文裡抓即時資訊,做事實查核與更新,用來支撐整個系統的「最新狀況」判斷。
  • Benjamin(邏輯學家):數學、程式碼與 step‑by‑step 推理專家。當其他代理人提出結論或計算,他會負責檢查推理鏈是否合理、有沒有算錯或邏輯跳針,相當於系統裡的「嚴格審稿人」。
  • Lucas(創意人員):負責從不同角度看問題,幫忙重寫回答讓它更好懂,並且補充其他人沒想到的點子或觀點,是整個系統裡偏「創意表達/發散思考」的角色。

因此,當某一代理信心十足地說錯話時,其他代理就有機會在內部對話中提出質疑、要求補證或直接給出反例。xAI 指出,在早期測試中,透過這種多代理辯論,幻覺發生率可降低約 65%,顯示錯誤有更大機會在系統內部被消化,而非直接呈現在使用者眼前。

值得留意的是,xAI 目前公開的 Grok 4.20 仍被標示為「小型」的 5000 億參數基礎模型版本,完整版本仍在訓練之中。

操盤獲勝!Grok 4.20 成懂賺錢的代理AI

Grok 4.20 之所以引發關注,另一關鍵在於其在實盤交易場景中交出亮眼成績。於 Alpha Arena Season 1.5 股票交易競賽中,參賽 AI 模型均以約 1 萬美元本金進場,在既定期間內進行真實市場交易。

外媒《eWeek》引述賽事結果指出,Grok 4.20 是整個賽季中唯一實現整體獲利的 AI 模型,期間將資產提升至約 1.1 萬至 1.35 萬美元區間,而 OpenAI 與 Google 參賽模型則收在虧損。

更值得注意的是,排行榜前六名中有四席由 Grok 4.20 的不同變體拿下,包括偏穩健的新基準配置、強調情境靈敏度的版本、採用較高槓桿的進取設定,以及風格更為激進的「Monk Mode」等。這顯示 Grok 4.20 多代理架構並非只對單一策略有效,而能在不同風險偏好與策略風格下延展。

對 xAI 而言,這場實盤賽事提供了一個難得的「商業故事範本」:在多數業者仍以基準測試分數、產品展示為主時,Grok 4.20 已有一個可對外宣稱「模型確實在市場上賺到錢」的案例。

報導指出,馬斯克也在 X 上轉發相關內容,半開玩笑表示這似乎是「付清所有 GPU 帳單的一種方法」。在算力成本節節高漲、產業尋找 AI 直接變現模式的當下,這種「模型幫你賺錢」的敘事極具吸引力,也使多代理架構在金融、交易等高價值垂直場景的應用更具說服力。

四代理分工協作怎麼用?

先講結論:四代理是「架構層的預設」,不是你自己手動開四個 bot。只要你進到正確入口、選到 4.20 模型、丟一個複雜一點的任務,它就會自動用 Grok/Harper/Benjamin/Lucas 分工辯論,再給你整合答案。

  • 先進產品入口
    用瀏覽器開 ,用 X(Twitter)帳號登入就好。免費帳號也能用 4.20 的四代理版本。

  • 確認你在用 Grok 4.20
    在介面裡把模型選到「Grok 4.20」,而不是 Grok 3、Grok 4.1 或單純的「Grok」。四代理辯論是 4.20 的架構特性,選錯模型就只會看到單模型行為。

  • 丟「需要多角度 + 查資料 + 推理」的題目
    四代理的差異在「難題」才看得出來,所以不要問「今天天氣」這種。建議可玩三種場景:

  • 多角度:例如「支持與反對遠距工作最有力的論點?」

  • 事實密集:例如「整理 2025 以後各國 AI 能源政策的關鍵數據與差異?」

  • 技術/程式:貼一段有 bug 的 code,要求找錯+改寫+最佳化。通常在 4.20 的 UI 裡,你會看到類似「多個思路」或 agent tag 的內部對話/步驟(實作細節看 xAI 當下的介面設計,有時是顯示清楚角色名,有時是壓縮成一段「推理過程」)。

  • 觀察「像辯論」的行為特徵
    如果四代理真的有啟動,你會看到一些特徵:

- 先提出一組結論,後面跟著補充「另一種可能是…」或自我修正。
- 內容裡同時兼顧:最新來源(Harper)、算式/程式推導(Benjamin)、重寫+比喻+ framing(Lucas)、整體結論(Grok)。
- 有時候會明講「先列出支持方/反對方論點,再做權衡」,這就是內部辯論結果的外顯化。

  • 想要更明顯的 agent 風格,可以刻意刺激它
    你可以刻意在 prompt 裡要求它顯示分工,例如:

- 「請你用協調員 Grok、研究員 Harper、邏輯專家 Benjamin、創意 Lucas 先各自提出看法,再統整一版結論。」
- 雖然底層多代理本來就會啟動,但這種要求通常會讓它把內部辯論顯示得更清楚,方便你觀察四個角色的差異。

進階「Heavy 模式」支援 16個 代理

四代理版 Grok 4.20 已向免費帳號開放,而付費方案 SuperGrok 月費約 30 美元,除了加快回應速度外,還可啟用名為「Heavy」的模式,將代理數量擴充到 16 個,對應更細緻的專業分工與研究等級任務。

相較之下,OpenAI、Google、Anthropic 等主流實驗室對外公開的產品,仍多以單模型推理為主,即便其內部或開發者生態早已探索多代理協作,但尚未像 xAI 一樣將其包裝為直接面向終端使用者的主打功能。

當然,現階段 Grok 4.20 仍屬 Beta 版本,xAI 尚未公布完整技術報告與標準化基準測試,外界對其實際效能與成本結構仍有疑問。然從幻覺率下降、多策略實盤交易表現,以及免費開放搭配高階「Heavy 模式」三個面向觀察,xAI 顯然希望把戰場從「模型規模與參數數字」轉移到「架構設計與實際場景成果」。

接下來,其他實驗室勢必得思考:要不要跟進「原生多代理架構」,還是持續在單一模型上加碼算力與資料,讓兩條路線在市場中分高下。

延伸閱讀:SpaceX擬整併xAI!馬斯克打包「火箭+衛星+Grok」,備戰兆元IPO只為實現太空AI雲?

資料來源:eweek

本文初稿為AI編撰,整理.編輯/ 李先泰

延伸閱讀

Anthropic不忍了!控DeepSeek等三家中國AI新創「抄襲」:狂刷1600萬次提問偷學Claude
皮克敏爆紅解密!沒代幣、不能挖礦,「邊走邊種花」為何能打敗「邊走邊賺」?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

台積電列證交所注意股 鉅額交易1筆20張均價2073.3元

中央通訊社
02

20萬台灣用戶個資疑外洩!酷澎:提供補償

NOWNEWS今日新聞
03

金融海嘯前兆重現!小摩CEO戴蒙批同業為衝利息收入「正在做蠢事」

anue鉅亨網
04

台股狂噴千點,投資人卻心慌慌!專家直言「泡沫並不恐怖」:太擔心反變軋空燃料

風傳媒
05

獨家/台灣知名藥廠遭駭客勒索 「傳奇女傑」護照被公開

民視新聞網
06

事情大條了!酷澎韓國個資外洩其實包括台灣 數發部將出手開罰

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...