「推理」AI 模型正當紅！中國 DeepSeek 發表效能媲美 OpenAI o1 的推理模型

隨著奉行「擴展法則」（Scaling Laws）的 OpenAI、Google 和 Anthropic 在效能突破上紛紛遇上瓶頸，市場開始紛紛轉而擁抱推理模型（reasoning model）。由知名中國私募巨頭幻方量化創立的 AI 研究公司 DeepSeek 在週三（11/20）發表 DeepSeek-R1 預覽版推理 AI 模型，並宣稱其推理能力與 OpenAI o1 不相上下。該公司並計劃對 DeepSeek-R1 開放原始碼並發布 API。

相較於傳統 AI 模型，推理模型會耗費更多時間考慮問題或查詢，進而能有效地自我進行事實查核（fact check），此舉可避開通常會使模型出錯的缺陷。基本上，推理模型會透過任務進行推理，提前規劃並執行一系列動作，幫助模型得出答案。這一過程多半十分耗時，實際時間需視問題的複雜程度而定。以 DeepSeek-R1 而言，它可能需要花費數十秒的「思考」後才能作答。

經過兩大主流 AI 基準測試 AIME（使用其他 AI 模型來評估受測模型的效能）和 MATH（其為一組文字題測試集）的實際測試發現，DeepSeek-R1-Lite 預覽版的效能表現與 OpenAI o1 預覽版旗鼓相當。

但根據 X 平台上一些評論者指出，DeepSeek-R1 和 o1 一樣，在井字棋等邏輯問題上的表現不佳。此外，DeepSeek 也很容易透過提示注入加以「越獄」，一位 X 平台用戶甚至讓該模型詳細描述了製作安非他命的配方。

在中國網際網路監管機構的施壓下，面對某些被認為過於政治敏感的查詢，DeepSeek-R1 會自動加以封鎖。經實際測試中，該模型會拒絕回答有關中國領導人習近平、六四天安門以及中國攻打台灣之類地緣政治影響等問題。

隨著長期居於主流理論地位之「擴展法則」（亦即透過投入更多資料和算力便能持續提升模型能力的理論）的可行性受到質疑，人們開始轉而關注推理模型的同時，也開始爭相尋求新的 AI 方法、架構和開發技術，「測試時運算」（test-time compute）便是其中一項應運而生的技術，它也成為 o1 和 DeepSeek-R1 等模型的基礎技術。

測試時運算也被稱為「推理運算」（inference compute），實質上是為模型提供額外的處理時間來完成任務。微軟執行長納德拉（Satya Nadella）在本週微軟 Ignite 大會主題演講中提到測試時運算時便說道：「我們正在見證一種全新擴展法則的出現。」

A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1

（首圖來源：科技新報）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

留言 0