由中國新創DeepSeek推出與公司同名的對話式AI服務(conversational AI),以及服務背後同樣以DeepSeek命名的語言模型,同時在技術、經濟和政治上,掀起關注人工智慧發展者的熱烈討論。DeepSeek在突破GPU限制的同時,也被指控可能「偷用」OpenAI模型,為何大師仍稱讚DeepSeek?
去年(2024)聖誕節期間,DeepSeek在介紹新模型DeepSeek-V3,也一併揭露其訓練成本,雖然在關注科技進展的社群上激起一陣水花,但並沒有像過去一週那樣突破圈層。
DeepSeek之所以能夠左打NVIDIA股價、右踢OpenAI,關鍵在於他們在過年期間,推出具有推理能力(reasoning)的R1模型。推理是AI從助理(assistant)走向代理(Agent),再邁向通用(artificial general intelligence)的必備能力,也是Google、Anthropic和OpenAI開發模型時的最大戰場。
不過,從地緣政治對抗的角度來說,美國分明限制高階晶片出口,為何DeepSeek和阿里巴巴、騰訊等中國企業還是有辦法推進基礎模型的研發?再從政治切換到經濟,DeepSeek被控利用OpenAI的模型產出,蒸餾出便宜但表現優異的模型,卻仍被專家們認為有利於AI民主化?
不畏禁令,中國企業仍有管道取得GPU
「中國不好買GPU,這個沒有想像的嚴重。⋯⋯我不知道任何一個中國做大模型的公司,是因為買不到GPU,才做不出好的結果,如果說做不出好的結果,主要的理由還是行不通。」去年年中接受《遠見》採訪,比較中美大模型進展時,零一萬物創辦人李開復如此分析。
自2022年起,時任美國總統拜登便以《晶片與科學法案》和其他政策工具,既要讓美國半導體供應鏈回流,同時也希望打擊中國研發人工智慧的能力,管制出口到中國的CPU、GPU、記憶體,甚至直接禁止先進半導體設備和人才在中國落地。
拜登在卸任前,更宣布將在一年後(2026)全面管制美國的先進晶片出口,除了禁止出口至中國與俄羅斯等國家以外,同時也對中東、東南亞以及新加坡等國施以出口總額限制。
李開復認為,中國企業取得GPU固然有一定挑戰,但並非主要問題。張智傑攝。
為何要管制競爭對手以外的國家?為的就是避免中國暗渡陳倉,取得算力。不管是在新加坡、日本甚至台灣成立公司採購,還是以走私方式進口,又或者是在禁令實施前大量儲備,甚至調用海外雲端服務,從中國科技巨頭與新創的公開發言中,便能看出他們手上都有一定數量的先進晶片,只是效能上有所減損。
當然,這對中國企業研發基礎模型來說,仍然是種限制。因此,據傳只利用「降級版」的H800訓練,卻能與OpenAI產出的模型競爭,這是DeepSeek受到矚目的重要原因之一。
「最新的發明還是美國厲害,但中國能夠找到方法節省成本,用更少的錢,或者是更優質的工程技術,訓練出同樣好的模型。」李開復解釋,美國創投市場願意給AI模型企業更高估值,企業也因此有辦法購買更多GPU,中國AI模型創業家們資金相對沒那麼充裕,因此要在模型架構、硬體配適等層次下苦工。
DeepSeek在介紹DeepSeek-V3的論文便提到,透過改善演算法、架構與硬體協同設計,模型的總訓練成本能夠壓低至約560萬美元。雖然DeepSeek並未刻意標舉其訓練模型成本的低廉,但仍引發大量質疑。
成本有無造假?論文便提到560萬美元不是全部
事實上,DeepSeek在論文中就曾解釋,560萬美元只是訓練正式階段所要花費的GPU使用成本,並沒有計入團隊研發上的費用。
社群媒體上時常能看到援引Scale AI創辦人亞歷山大(Alexandr Wang)所言,DeepSeek擁有5萬個高階晶片,用作指控DeepSeek謊報訓練成本的論據。
先不論比較模型訓練成本時,計算的是運行GPU的時間長乘上租用價格,即便DeepSeek擁有大量先進晶片,如同科技分析師湯普森(Ben Thompson)所說,DeepSeek為克服H800的性能問題,在模型架構和基礎設施上做了許多努力,單就560萬美元的數字來說,「這只是最終運行的成本,並非總成本(total cost),但是一個合理的數字。」
Anthropic創辦人表示,單就大模型成本下降的曲線來說,DeepSeek-V3並不獨特,但特別之處在於這次是由中國企業達成,地緣政治上的意義很大。取自Anthropic官網
無論是過度貶低或者吹捧DeepSeek,都有值得商榷之處。Anthropic共同創辦人達里歐(Dario Amodei)便指出,「DeepSeek用6百萬美元開發出美國AI企業花費數十億美元得到的模型」的敘述並不正確。
他分享,Anthropic去年6月推出的Claude 3.5 Sonnet訓練花費約為數千萬美元,對比之下,DeepSeek開發出的模型能力接近「美國7至10個月前開發出的模型」,並真的省下不少錢。換句話說,聲稱美國企業訓練AI模型花費數十億,是將訓練以外的研究也納入,這樣的比較並不公平。
啟示1:OpenAI指控模型被偷,為何大師說開源勝利?
除了藉由強化學習(reinforcement learning)增進模型的推理能力以外,最關鍵、也最引發爭議的,便是DeepSeek利用蒸餾(distillation)技術,讓站在大模型肩膀上的小模型也有辦法具備先進模型才有的能力。
「大語言模型非常龐大,你一定要透過蒸餾方式,例如把Llama 405B的大模型縮小,就可以放在裝置,或者做特殊的任務。」AWS專業解決方案架構師總監楊仲豪表示,解釋蒸餾技術時,最常用的說法就是老師教學生,開發者會先向大模型提問後記錄回應,接著再拿問答內容協助訓練小模型。
「老師先回答問題,有標準答案以後,再用標準答案教給學生,學生(規模)會縮小,會去回答範本的答案,這就是蒸餾。」
楊仲豪指出,模型蒸餾會是今年(2025)AI發展重要的趨勢之一。曾子軒攝。
在論文中,DeepSeek表示其蒸餾的老師模型來源是本就開源的阿里巴巴模型QWEN、META模型Llama,但OpenAI表示,他們認為DeepSeek調用OpenAI的API,藉此產出內容後用以改善DeepSeek的模型,這也是社群上常見指控「DeepSeek盜用OpenAI模型」的原因。
湯普森指出,運用OpenAI或者Anthropic的API來蒸餾模型,顯然違反使用者條款,然而,「坦白說,如果他們沒有這樣做才奇怪。」湯普森認為,對開發出頂尖模型的企業來說,現狀非常嚴峻,自家要負擔大量成本,後進者只要搭便車就能推出性能僅有些許落差,但成本極低的模型。
吳恩達:DeepSeek後,更看好AI民主化
吳恩達也因此在其定期發表的週報The Batch中寫道,訓練基礎模型並提供API調用服務的競爭激烈。去年接受《遠見》採訪時,他便提到,「當一家公司投入大量資金,兩年後,其他人也能達到相同成就,這讓基礎模型開發的競爭變得更加激烈。」
反過來說,因為有許多企業爭搶研發出最好的模型,對於開發者來說,能夠以極低成本調用API、開發服務,例如DeepSeek的API定價甚至不到OpenAI o1的10%,自然是好消息。
除了降低成本以外,吳恩達也提到,DeepSeek以開放權重模型的形式發佈,又公布許多技術細節,「對照之下,許多美國公司通過炒作人類滅絕等假設性的AI風險,藉此推動監管以扼殺開源,」他非常看好開源模型的發展。
吳恩達向《遠見》表示,雖然閉源模型表現優異,但並不存在護城河,開源模型正在迎頭趕上。曾子軒攝。
長期批評OpenAI從研究(research)轉向研發(development)的楊立昆(Yann Lecun)也表示,DeepSeek的崛起不是中國超越美國,而是開源模型超越企業專有的封閉模型。
雖然DeepSeek的行為可能有爭議,為何AI巨擘們仍盛讚開源?
關鍵在於,開源有望推動AI的民主化(democratization),未來將有更多開發者與企業利用DeepSeek公布的方法與模型權重,不一定非要運用OpenAI或者Anthropic的封閉模型,甚至在自己的電腦上,就能運行蒸餾後的小模型。
啟示2:發展台版GPT,能夠參考DeepSeek?
仔細梳理DeepSeek所引發的熱潮,可以拆解成技術、經濟和政治等不同層面上的議論。
在中美兩強對抗的地緣政治背景下,DeepSeek突破關鍵基礎設施禁令,發展出能夠與o1、Claude 3.5一較高下的模型,這是美國科技大廠與政府官員關注的重點。
自台灣角度出發,因為海峽兩岸複雜的歷史與政治因素,有些人在意AI服務是否能夠回應在地文化與商業上的需求,也有些人抗拒泛政治化的論述,認為審查(censorship)無所不在。
從技術角度上來看,DeepSeek讓站在大模型肩膀上的小模型也能展現推理能力,有其創新之處,又因為有著借鑑現成模型,即便涉及利用他人模型的灰色地帶,但還是降低訓練模型成本,再加上DeepSeek公布其模型權重,讓沒有能力負擔從頭開發基礎模型者找到出路,展現出經濟上的價值。
站在不同角度,自然會有不同看法。在過去兩年討論「台版GPT」的背景之下,雖然台灣的算力相對不足、資料又有限制,若能採用DeepSeek的研發取徑,或許會是讓模型更貼近台灣用語與價值觀的好機會。
延伸閱讀:台版GPT
專題/AI軍備競賽來了!連「母湯」也懂,台版GPT爭國際話語權
商機/當AI講話更像台灣人,審理契約將飆八倍速
挑戰/有錢不一定好辦事!台版GPT上路還有哪三關要闖?
延伸閱讀: