財經

【跨市博弈】DeepSeek價廉物美掀隱形革命 把全球AI大模型拖入殘酷性價比大戰

BusinessFocus
更新於 02月05日04:05 • 發布於 02月05日00:00 • PressLogic - BusinessFocus

當美國商務部長雷蒙多仍在推文宣揚晶片禁令成效時,中國AI界的「特洛伊木馬」已悄然進場。一家名為DeepSeek以557萬美元(約4,344萬港元)的訓練成本,將大模型競賽拖入了殘酷的性價比絞殺戰。它將猶如精密運轉的技術黑箱,在算法、架構與硬體的協同創新中,悄然改寫着全球AI競賽的基礎規則。

在技術端,最常被提及的是DeepSeek的V2與V3兩代模型。V2原本就已展現將大參數模型「拆分成多個子專家」的思路,試圖以分而治之的方式,減少某些無效計算浪費。到了V3,透過DeepSeekMoE與DeepSeekMLA等核心技術,才真正把這個想法推到近乎極致:

一、DeepSeekMoE架構將傳統混合專家模型(Mixture of Experts)的基礎上把專家進一步細分,改造成「專家組+通才組」的動態組合。好比將餐廳廚房重構為特種灶台與多功能料理台的矩陣——遇到川菜訂單時,僅啟用麻辣專用灶與通用炒鍋,而非點燃全部128個灶眼。這種「按需激活」策略,使V3模型的6700億參數中,單次推理僅需調用370億參數。

廣告(請繼續閱讀本文)

二、DeepSeekMLA技術則直擊AI推理的「記憶體牆」難題。傳統transformer模型需為每個token存儲完整的鍵值對,如同要求圖書管理員背下整個書庫的目錄。MLA(multilateral latent attention)引入的多頭潛在注意力機制,相當於開發出智能索引系統——管理員只需記住書架區域特徵,即可快速定位目標書籍。這項革新將推理階段的記憶體佔用壓縮60%,使H800的24GB顯存能承載32k tokens的上下文窗口。

DeepSeek訓練成本的大幅下降,不只是演算法層面。DeepSeek在訓練集群上僅使用2048塊H800 GPU,卻能跑出類似H100集群規模的效果,主要是有別海外同行依賴Nvidia的CUDA生態,而直接深入PTX滙編層面重構計算流程。這種「硬體解剖級」的優化,使每塊H800晶片的132個計算單元中,有20個被專門改造成通訊協調員,將跨晶片數據延遲壓縮至3.2微秒。加上大膽採用FP8(8位元浮點)動態精度調整,在非關鍵計算環節切換至8位元模式,這使單個GPU小時的計算密度提升2.7倍,硬生生在制裁晶片上碾出超越H100的訓練效率。

廣告(請繼續閱讀本文)

當然,真正讓DeepSeek在行業內產生巨大迴響的,是其在推理與部署環節進一步推出R1系列(尤其是R1-Zero)。R1在數學推理、程式生成、基礎邏輯推斷等方面的表現,足以匹敵不少市面上付費API的高效能模型。其蒸餾技術(distillation)如同AI界的技術「吸星大法」,能從閉源模型的API輸出中提煉知識精華。這種「站在巨人肩上的追趕」,使中國企業突破技術封鎖的成本曲線陡峭下折。

至於「R1-Zero」的一大亮點,就是有別於一般大模型要依賴海量的人工標註數據才能提升推理能力,R1-Zero嘗試幾乎完全走「純強化學習」的路線,透過龐大的算力進行自我對弈式的任務訓練,最終發展出近似「自我頓悟」的能力。這種概念類似AlphaGo Zero在棋類領域的做法,卻被移植到更通用的語言推理之中,也為未來的AGI(通用人工智慧)發展奠定了基礎。

Meta開源Llama系列原是為牽制OpenAI,卻在無意間為中國公司提供了躍升跳板。而DeepSeek透過開源(或半開源)策略所形成的「開放式生態圈」正快速累積開發者和企業用戶,這將顯著挑戰目前以閉源API服務(如OpenAI、Anthropic)為中心的商業模式。這樣的趨勢不僅威脅依賴高溢價API付費的服務商,也顛覆了某些巨頭倚賴「昂貴晶片+封閉演算法」所建立的優勢地位。值得注意的是,蘋果、Meta、微軟、亞馬遜等大型科技公司若善用DeepSeek的模型優化技術或低推理成本策略,即邊緣計算設備+輕量化模型的組合。

廣告(請繼續閱讀本文)

那麼R1處於絕對領先嗎?筆者並不這麼認為;因為 OpenAI展示了o3一種更強大的推理模型,即使DeepSeek在效率方面絕對是領先者,但這與整體領先不同。

上屆的拜登政府的晶片管制本欲製造「代際時差」,卻催生出意料外的創新鏈式反應。當然,若華盛頓也將H800列入禁運名單,DeepSeek優化技術也可能淪為無用武藝。然而,這意味美國不是透過未來的創新來競爭,而是透過過去對創新的否定來競爭。是的,這可能在短期內有所幫助——但「替代路徑創新」具有強烈的外溢效應,形成更強大的去輝達化的技術矩陣。

DeepSeek的崛起預示AI競賽範式遷移。OpenAI代表的「摩天大樓模式」(堆砌算力與參數)正被「樂高積木模式」(模塊化架構+極致優化)挑戰。這次,也將重塑了全球AI競爭格局,迫使產業與政策制定者重新審視硬體依賴、開源價值與創新路徑。從長遠來看,「傑文斯悖論」(Jevons paradox)將佔據主導地位,令每個使用AI的消費者和企業將是最大的贏家。

徐立言

www.facebook.com/hsulylab/

免責聲明:本網頁一切言論並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力自行作出投資決定,如因相關言論招致損失,概與本公司無涉。投資涉及風險,證券價格可升可跌。

閱讀完文章,記得追蹤BusinessFocus以下平台,隨時接收最新投資創富消息 !

【Follow BusinessFocus LinkedIn】

【Follow BusinessFocus IG】

【Like BusinessFocus FB】

查看原始文章

更多 財經 相關文章

傳黃埔花園兩房戶僅售300萬 一個原因揸29年都要蝕走
on.cc 東網
蘇民峰神算避加州山火?開箱比華利山「八運」豪宅!
易發睇樓團
美股急挫 道指下跌748點
商台新聞
大阪中國人數目10年翻一倍 由留學生到富裕人家 因何不斷置業?
BusinessFocus
對沖基金之王警告:特朗普出招恐致大調整 美下半年經濟或放緩
on.cc 東網
新盤銷情|元朗朗天峰首輪250伙 歷時7小時全數沽清
BossMind
官媒:中美經濟高層溝通釋放三重訊號 料美間歇性揮舞關稅棒
on.cc 東網
即日炒家|阿里巴巴「故事」最好 聯想百度皆有隱憂|家Sir
BossMind
油價挫近3% 紐約期油守70美元
on.cc 東網
金缸經|DeepSeek的好,會否吹得太大?
BossMind
加密幣史上最大盜竊案!交易所Bybit遭黑客攻擊料失117億
on.cc 東網
白居二「零議價」購將軍澳茵怡花園一房 呎價低見7000元|二手居屋成交
am730
【2025連天台單位攻略】4大選購重點|滲漏風險|產權查冊全攻略
美聯樓市情報站
上車客尋寶!「1字頭」購屯門私樓兩房 上手12年帳賺五成|二手樓成交
am730
土瓜灣350呎私樓銀主盤僅「2字頭」推拍 返10多年前水平...
on.cc 東網
沙田一房私樓勁劈逾百萬 僅售278萬元 4年狂蝕逾3成
on.cc 東網
陳樂怡:小鵬新車銷情倘理想 料成短線催化劑
on.cc 東網
郭家耀:家辦成立流程一個都不能少
on.cc 東網
港元定期利率|多間銀行調整定存息 各大銀行比較及存款優惠【2月21日更新】
am730
外區投資客320萬買錦華花園雅裝戶收租 回報率料4.5厘
on.cc 東網
朗天峰首輪銷售250伙即日沽清 大手客千六萬掃4單位
on.cc 東網
樓價繼續探底!荃灣兩房463萬沽 創屋苑10年新低|二手樓成交
am730
字節跳動AI團隊多名高管退休離職?抖音副總裁:不實訊息
on.cc 東網
竊取技術|美議員倡禁中國人進入國家實驗室 稱其「竊取」太多美國技術
BossMind
親友單位內輕生 居屋淪凶宅 大裝修後公屋價推拍賣市場
易發睇樓團
Apple Intelligence 4月正式支援簡體中文等多國語言
on.cc 東網
陳政深:港股破位 上方仍有餘未盡
on.cc 東網
朗天峰開賣|中原陳永傑:首輪料可一Q清 大手客斥1251萬買3伙|元朗新盤
am730
美股主指收黑 道瓊重挫750點
VOCO News
【錢夫人巡舖】港銀推5.88厘快閃定存優惠 開戶另有獎賞
on.cc 東網
公司業績|去年稅前多賺18% 末期息增派33% 渣打斥15億美元回購
BossMind
九龍站「大業主」沽天璽星鑽2房蝕4球 順德「西餅客」曾4.4億大手掃貨14伙
易發睇樓團
季檢出爐!藍籌股無變動 國指納中通快遞及百濟神州
on.cc 東網
廖嘉豪:美元兌日圓或續下試148.6 宜高沽英鎊
on.cc 東網
細價盤跌到殘!「1字頭」買到私樓兩房 做價創十年低
on.cc 東網
恒指季檢維持成份股不變 地平線騰訊音樂納入科指
商台新聞
強積金扣稅2025|點填報稅表?扣稅上限幾多?(附計算方法)
am730
日本百圓迴轉壽司店「瀕臨絕種」 全因呢3個原因
am730
【財經快閃講】 下週展望 《李澤銘 林家亨 黃敏碩 鍾俊鏘》2025-02-22
郭思治工作室
【郭Sir 收市分析】2025-02-21 大市急升並以全日最高位收市
郭思治工作室