美國長期以來透過出口管制與相關禁令,試圖限制中國取得最先進的人工智慧運算晶片,以維繫在全球 AI 發展領域的領先地位。然而近來中國新創公司 DeepSeek 公開宣稱,他們在較少晶片與較低預算的情況下,打造出表現能與美國前沿 AI 推理模型 ChatGPT o1 一較高下的 DeepSeek R1。由於他們公開了程式碼以外的資訊,使得從業界的競爭對手、到政界的白宮,都為了這個 AI 的橫空出世打到措手不及。
除了許多人對於 DeepSeek-R1 的真實成本質疑、或是全面性地驗證是否能重現相關結果外,這個 AI 模型的背後還有更深一層的意義:究竟美國的晶片管制失敗,導致中國能拿到足以打造出強大 AI 的晶片?還是美國晶片管制成功,使得中國公司另闢蹊蹺找出算法、規避晶片制裁的算力問題?
DeepSeek 是效率與成本的挑戰
DeepSeek 的知名度原先並不算突出,但最近數個月來卻透過一款名為「DeepSeek-V3」的模型,一舉切入了全球 AI 產業的視野:根據多家媒體與研究單位報導,DeepSeek-V3 在部分測驗成績上與美國現存的先進 AI 模型表現差距接近,更進一步進行了第二階段的強化學習訓練,在 2024 年底推出稱為「R1」的推理型模型。這款 R1 強調能夠用更接近人類思維的方式展開「思考」過程,對於編寫程式、數學推理等任務也有更高準確度。
尤其引人注意的是,DeepSeek 所宣稱的訓練成本遠低於美國企業的估計支出,甚至只動用了不到 600 萬美元的成本就完成關鍵訓練,引發市場哄動。雖然外界普遍認為這個數字可能僅計入邊際成本,並未涵蓋晶片購置、資料中心建設以及研發團隊薪資等龐大隱性花費,但「低成本高效能」這個口號仍使 DeepSeek 一躍成為全球焦點。
然而,從美國 AI 公司 Anthropic 的執行長 Dario Amodei 說明來看,DeepSeek 用較小資源達到與美國前代或同階段模型相近的水準,與整個 AI 領域近年來持續出現的演算法與硬體效率提升脈絡相吻合,只是先做到的是中國公司。人工智慧歷經 2023 年與 2024 年的技術演進,訓練相同等級模型的成本大約每年可下降數倍以上,也就是說,即便 DeepSeek 在 2024 年底投入的訓練預算較少,也不一定遠遠超越其他公司的效率。
Dario Amodei 說明,Anthropic 的 Claude 3.5 Sonnet 早在 9~12 個月前就完成訓練,整體成本雖然也是數千萬美元等級,而他認為「DeepSeek 以顯著較低的成本,訓練出一個與美國 7~10 個月前的 AI 模型能力相當的模型,而這個成本不如外界所想像的那麼懸殊」。此外,DeepSeek-V3 為「第一階段」預訓練模型,與經過「強化學習第二階段」的 R1 其實概念並不相同。前者創新在透過工程手段提高效率,後者重在推理能力強化。
美國業界的回應
美國主要晶片廠商 NVIDIA 的股價,在消息曝光後曾大幅下跌約 17%,市值蒸發了近 6,000 億美元,讓外界擔心 AI 基礎建設供應市場是否已被撼動。這些疑慮的成因,一方面是市場擔心若訓練大型 AI 模型所需的顯示卡數量可大幅減少,進而壓縮 NVIDIA 的利潤來源;另一方面也在於世界各大企業近年持續投資數千億美元建構雲端運算與資料中心,其財務回收與投資正當性更面臨檢驗。
然而,仍有專家指出,DeepSeek 的新式技術若真能大幅降低 AI 運算成本,反而可能擴大整體市場對 AI 的需求--歷史上只要有技術降低了某種資源的使用門檻,最終往往導致該資源的整體需求量上升。也就是說,一旦 AI 模型變得成本更低、更容易使用,反而會有更多應用場景導入 AI。如此一來,對於 NVIDIA 或其他競爭廠商的推理晶片需求,反而會因為大量使用而出現新的成長。
同時,即便在「強化學習推理階段」中可使用較少晶片,若要繼續擴充模型規模、研究更為複雜的任務,仍然需要龐大運算力支撐。就連 DeepSeek 自身也在受訪時坦言,若可以使用更多資源進行實驗,成果可望更迅速且更穩定。根據 Scale AI 執行長 Alexandr Wang 說明:DeepSeek 其實可能暗中擁有 50,000 顆 NVIDIA H100 等級的高階晶片,遠超過其官方宣稱的 2,000 顆 H800 規模;若此資訊屬實,意味該公司在計算資源取得上其實並非外界想像的如此窘迫。
另一家研究機構 SemiAnalysis 也認為 DeepSeek 手上同時握有不同型號,包括在 2022 年限制前取得的大量 A100 晶片,以及後來透過合法或疑似走私等管道取得的 H100、H800 與 H20。這些資訊也變相說明,許多人正在質疑美國的晶片管制在執行時的漏洞,而 DeepSeek 是否真如其所說、是在美國晶片管制下所打造出的 AI 技術,也讓不少人有所質疑。
▲ 即便 AI 成本降低,AI 晶片需求普遍預測仍水漲船高。(Source:Colest Gadgets)
出口管制之爭
美國政府從 2022 年起逐步加強對中國出口高階 AI 晶片的限制,2023 年更持續收緊規範、禁止多種頂尖顯示卡直接輸往中國。然而 DeepSeek 的崛起,對外界來說似乎顯示中國依然能大規模取得或囤積先進晶片。有論點認為,美國的出口管制政策耗時過久才正式執行,讓像 NVIDIA H800 這種被「微調」後、名義上符合管控門檻卻實際性能強大的產品,依舊能大量輸往中國。紐約時報的報導指出,當 H800 在 2022 年推出時,美國政府因為法律技術門檻的定義問題,並沒有立即禁止該晶片出口,中國企業得以趁此時機大量進貨;直到 2023 年 10 月才進一步將這類「合規降規」晶片正式納入管制範圍,等於在期限內供給已完成供貨。
然而,也有另一種說法認為 DeepSeek 的例子證明美國管制的確產生效果,至少成功阻擋了中國企業獲得更多最新一代 H100 或其他更頂尖晶片,迫使他們只能在資源有限的情況下加強算法與架構的精進,因而意外激發創新。美國智庫 RAND Corporation 資深顧問 Jimmy Goodrich 就指出,若美國在 2023 年內更快收緊對 H800 的管控,DeepSeek 可能就更難以在此時點釋出與美國同級水準接近的模型。
從 Anthropic 執行長 Dario Amodei 的觀點來看,DeepSeek 展現出色的工程創意,但與美國頂尖廠商仍有一段落差,且如果中國想要打造真正媲美美國「最先進」之強化推理型 AI,就必須持續取得數以百萬計、耗資數百億乃至上千億美元的晶片與基礎建設,而這仍須面對美國管制與物流運輸的多重限制。
因此,有論者基於國安考量,認為若美方持續加強出口管制,防堵中國 2026~2027 年間可能拿到超大規模的晶片集群,中國就難以與美國在「超強 AI」的發展上維持同步;而一旦美國與其盟友獨家擁有這些大規模運算資源,就可望把暫時領先轉化為長久優勢。但從另外一面來看,中國這幾年持續透過灰色手段進行晶片走私,或是同樣發展本土製造能力追趕,出口管制只能延緩中國的進程,卻無法徹底杜絕他們取得先進晶片。同時,中國公司並非只專注於最大型的訓練集群,也在探索如何讓模型在運算資源受限的情境下依然達到合格表現,DeepSeek 即是其案例。
▲ 晶片管制的可見影響。(Source:Apricitas)
「開放」的前景與衝擊
從開放軟體社群與部分美國科企的視角來看,DeepSeek 推出的開放下載與調整版本,也為全球 AI 發展帶來正面衝擊。比如 Meta 就因釋出開放模型而引起廣泛關注;如今 DeepSeek 也提供開放式的技術參考,意味更多研發者無需龐大資源即可參與前沿應用。有人認為,開放技術或將縮短國與國之間的實力差距,促成更多創新碰撞,也有人對此抱持戒心,擔憂模型在缺乏嚴謹審查的條件下可能被不當使用。
AI 技術往往不只影響商業競爭,還牽涉到軍事戰略與國際關係。DeepSeek 雖是一家新創公司,但位於中國國內勢必脫不了政府的影響與期待。若中國政府支持該企業大舉擴張,配套政策與資金隨之湧入,加上更大規模研發資源的整合,或將對美國在軍事應用與戰略科技領域的領先地位形成更直接的挑戰。許多美國國安專家因此呼籲維持或強化出口管制,期望能在關鍵時刻避免中國在 AI 與軍事運用上「後來居上」。
以目前(2025 年 1 月底)的各方資訊來看,DeepSeek 當前的成就符合 AI 技術持續降本增效的趨勢,並沒有把美國公司的模型遠遠拋在身後;同時,中國之所以能落實這套相對低成本的訓練方法,也可能因為在管制缺口或灰色地帶取得了更多真正先進的晶片。美國雖然未能完全掐住中國的 AI 進口要脈,但也確實透過管制策略拖慢了中國全力打造大規模模型的進度。到底美國是否要大幅收緊管制、加重關稅或甚至祭出更嚴苛的產品限制,仍存在相當多變數與政治考量。
(首圖來源:shutterstock)