Grok 3擊敗Chatgpt　狠甩DeepSeek　馬斯克「地表上最聰明的人工智慧」xAI奪第一

馬斯克（Elon Musk）先預告旗下Xai公司的大型語言模型「Grok 3」將是「地表上最聰明的人工智慧」，發布後參加評測果然擊敗所有LLM模型。（圖片來源／xAI）

特斯拉執行長馬斯克（Elon Musk）日在X平台上宣布，旗下的AI新創公司xAI的新一代聊天機器人「Grok 3」將於2月17日晚上8點（台灣時間2月18日中午12點）發布，隨即參加ARENA SCORE測評，這個被他稱為「地表上最聰明的人工智慧」的語言模型不負所望，在ARENA SCORE評測中以1402最高分奪冠。

馬斯克最近才和死對頭Open AI執行長奧特曼吵架，為了買下OPEN AI一事，奧特曼回擊說，馬斯克可能想來拖慢我們的速度，我很同情他，此外，市場盛傳OpenAI還會發表新的ChatGpt 4.5版模型來對付馬斯克的「Grok 3」。

馬斯克發表最新LLM模型，奪下第一高分

然而，馬斯克於台北時間18日中午在xAI的X帳號上直播，不但顯示「Grok 3」勇奪第一，馬斯克還和xAI代表即場示範一個來回地球和火星軌跡的3D 模型程式碼，以及編寫一個加入「只限一整行同色才消除」新規則的特別版「俄羅斯方塊」。

「Grok 3」模營在ARENA SCORE評測中擊敗死對頭OpenAI的ChatGpt4O模型、把DeepSeek R1狠甩在後，擠下google剛發布沒多久的Gemini 2.0-flesh和 Gemini2.0 pro，更不用說Open AI的其他模型，以及阿里巴巴的Qwen2.5。

ARENA SCORE評測重點不在寫程式、算數學、搞物理，得高分，表示模型在理解能力、語言生成能力、知識廣度、適應性、長文本處理上有傑出的表現。

具人類認知過程，聊天理解能力驚人

ARENA SCORE是一種基於 Elo 評分系統的指標，用於衡量不同模型在對話質量上的相對表現。Elo 評分最初應用於國際象棋等競技項目，透過玩家之間的對戰結果來調整評分，反映其相對實力。

Xai公司的大型語言模型「Grok 3」在ARENA SCORE獲得1402最高分，超過ChatGpt4O的1377分，而便宜又大碗的DeepSeek R1獲得1361分。（圖片來源／Xai帳號）

在 ARENA SCORE 中，較高的分數表示該模型在與其他模型的對話比較中表現更佳。具體而言，模型之間進行兩兩對話比較，並由人類評審或其他評估機制選出表現較好的模型。隨著多次比較的結果累積，模型的 Elo 評分會隨之調整，反映其相對於其他模型的性能水平。

證明Grok 3有商業價值，已成為最強一的LLM

彭博社早前報道，它最大的特點在於引入「思考鏈」（chain of thought）的推理能力，使其複製人類認知的過程，逐步處理複雜的任務，顯著提高模型「處理複雜搜尋」與「提供更連貫、更有邏輯的反應能力」。

早在2月6日，美國軍用數據公司Palantir就在X平台上宣布與Grok合作，將其整合至Palantir開發的AIP（Artificial Intelligence Platform）當中，成為企業與政府機構可選擇的大型語言模型（LLM 之一，與Meta Llama、Google Gemini、OpenAI GPT-4及Anthropic Claude等主流AI模型並列，這一舉措可能進一步提升其在人工智慧領域的競爭力。

這項合作不僅讓Grok3在企業級應用中獲得更廣泛的市場機會，同時也讓Palantir鞏固其AI領域的技術優勢，使其在政府、國防、金融、醫療等領域的AI產品更具競爭力。

請更新您的瀏覽器

理財

信傳媒

延伸閱讀

更多理財相關文章

法拉利為他打造全球唯一訂製車　台灣詐騙犯變賣神車賠償受害者

竹科老廠爆掏空3／成敗都是宅經濟　光耀科4年內樓起樓塌

聰明將變廉價！黃仁勳揭生存新法則：擁有「這4種」人格特質能超越AI

美對台關稅15％、台積電再建5晶圓廠？政院：調降且不疊加已有大致共識

1公克黃金4712元黃金博物館「大金磚」創新高價10.38億

台積電法說先探／黃仁勳搶爆全年產能　台積電今年仍是一個人武林

留言 2

請更新您的瀏覽器啟用Javascript

Grok 3擊敗Chatgpt 狠甩DeepSeek 馬斯克「地表上最聰明的人工智慧」xAI奪第一

信傳媒