隨著奉行「擴展法則」(Scaling Laws)的 OpenAI、Google 和 Anthropic 在效能突破上紛紛遇上瓶頸,市場開始紛紛轉而擁抱推理模型(reasoning model)。由知名中國私募巨頭幻方量化創立的 AI 研究公司 DeepSeek 在週三(11/20)發表 DeepSeek-R1 預覽版推理 AI 模型,並宣稱其推理能力與 OpenAI o1 不相上下。該公司並計劃對 DeepSeek-R1 開放原始碼並發布 API。
相較於傳統 AI 模型,推理模型會耗費更多時間考慮問題或查詢,進而能有效地自我進行事實查核(fact check),此舉可避開通常會使模型出錯的缺陷。基本上,推理模型會透過任務進行推理,提前規劃並執行一系列動作,幫助模型得出答案。這一過程多半十分耗時,實際時間需視問題的複雜程度而定。以 DeepSeek-R1 而言,它可能需要花費數十秒的「思考」後才能作答。
經過兩大主流 AI 基準測試 AIME(使用其他 AI 模型來評估受測模型的效能) 和 MATH(其為一組文字題測試集)的實際測試發現,DeepSeek-R1-Lite 預覽版的效能表現與 OpenAI o1 預覽版旗鼓相當。
但根據 X 平台上一些評論者指出,DeepSeek-R1 和 o1 一樣,在井字棋等邏輯問題上的表現不佳。此外,DeepSeek 也很容易透過提示注入加以「越獄」,一位 X 平台用戶甚至讓該模型詳細描述了製作安非他命的配方。
在中國網際網路監管機構的施壓下,面對某些被認為過於政治敏感的查詢,DeepSeek-R1 會自動加以封鎖。經實際測試中,該模型會拒絕回答有關中國領導人習近平、六四天安門以及中國攻打台灣之類地緣政治影響等問題。
隨著長期居於主流理論地位之「擴展法則」(亦即透過投入更多資料和算力便能持續提升模型能力的理論)的可行性受到質疑,人們開始轉而關注推理模型的同時,也開始爭相尋求新的 AI 方法、架構和開發技術,「測試時運算」(test-time compute)便是其中一項應運而生的技術,它也成為 o1 和 DeepSeek-R1 等模型的基礎技術。
測試時運算也被稱為「推理運算」(inference compute),實質上是為模型提供額外的處理時間來完成任務。微軟執行長納德拉(Satya Nadella)在本週微軟 Ignite 大會主題演講中提到測試時運算時便說道:「我們正在見證一種全新擴展法則的出現。」
(首圖來源:科技新報)