特斯拉執行長馬斯克(Elon Musk)日在X平台上宣布,旗下的AI新創公司xAI的新一代聊天機器人「Grok 3」將於2月17日晚上8點(台灣時間2月18日中午12點)發布,隨即參加ARENA SCORE測評,這個被他稱為「地表上最聰明的人工智慧」的語言模型不負所望,在ARENA SCORE評測中以1402最高分奪冠。
馬斯克最近才和死對頭Open AI執行長奧特曼吵架,為了買下OPEN AI一事,奧特曼回擊說,馬斯克可能想來拖慢我們的速度,我很同情他,此外,市場盛傳OpenAI還會發表新的ChatGpt 4.5版模型來對付馬斯克的「Grok 3」。
馬斯克發表最新LLM模型,奪下第一高分
然而,馬斯克於台北時間18日中午在xAI的X帳號上直播,不但顯示「Grok 3」勇奪第一,馬斯克還和xAI代表即場示範一個來回地球和火星軌跡的3D 模型程式碼,以及編寫一個加入「只限一整行同色才消除」新規則的特別版「俄羅斯方塊」。
「Grok 3」模營在ARENA SCORE評測中擊敗死對頭OpenAI的ChatGpt4O模型、把DeepSeek R1狠甩在後,擠下google剛發布沒多久的Gemini 2.0-flesh和 Gemini2.0 pro,更不用說Open AI的其他模型,以及阿里巴巴的Qwen2.5。
ARENA SCORE評測重點不在寫程式、算數學、搞物理,得高分,表示模型在理解能力、語言生成能力、知識廣度、適應性、長文本處理上有傑出的表現。
具人類認知過程,聊天理解能力驚人
ARENA SCORE是一種基於 Elo 評分系統 的指標,用於衡量不同模型在對話質量上的相對表現。Elo 評分 最初應用於國際象棋等競技項目,透過玩家之間的對戰結果來調整評分,反映其相對實力。
在 ARENA SCORE 中,較高的分數表示該模型在與其他模型的對話比較中表現更佳。具體而言,模型之間進行兩兩對話比較,並由人類評審或其他評估機制選出表現較好的模型。隨著多次比較的結果累積,模型的 Elo 評分會隨之調整,反映其相對於其他模型的性能水平。
證明Grok 3有商業價值,已成為最強一的LLM
彭博社早前報道,它最大的特點在於引入「思考鏈」(chain of thought)的推理能力,使其複製人類認知的過程,逐步處理複雜的任務,顯著提高模型「處理複雜搜尋」與「提供更連貫、更有邏輯的反應能力」。
早在2月6日,美國軍用數據公司Palantir就在X平台上宣布與Grok合作,將其整合至Palantir開發的AIP(Artificial Intelligence Platform)當中,成為企業與政府機構可選擇的大型語言模型(LLM 之一,與Meta Llama、Google Gemini、OpenAI GPT-4及Anthropic Claude等主流AI模型並列,這一舉措可能進一步提升其在人工智慧領域的競爭力。
這項合作不僅讓Grok3在企業級應用中獲得更廣泛的市場機會,同時也讓Palantir鞏固其AI領域的技術優勢,使其在政府、國防、金融、醫療等領域的AI產品更具競爭力。