科技

中國 AI 公司新發表 DeepSeek V3 :一文看清 2 大技術及 6 個原因讓 AI 巨頭們感意外

Unwire.hk
發布於 2024年12月31日09:32

中國科技公司 DeepSeek 公佈了其 v3 模型,小編覺得是今年最大驚喜的開源 AI 模型,然而有人發現該模型在回答時自稱為「ChatGPT」,因此戲稱它為抄襲之作。作為香港的科技媒體,我們認為與其停留在嘲笑中,不如深入探討這款 AI 為何能讓業界震驚。這並非傳統的「無知識產權、低成本抄襲並大量出貨」的淘寶貨模式,而是一次可能改寫市場規則的 AI 技術突破。

DeepSeek 是什麼公司?

廣告(請繼續閱讀本文)

DeepSeek 是由中國私募基金「幻方量化」於 2023 年創立的人工智慧公司,專注於開發先進的 AI 技術。雖然成立時間不長,DeepSeek 憑藉高效技術創新,迅速成為 AI 領域的焦點。其最新成果 DeepSeek-V3 模型,擁有高達 6710 億個參數,在性能與成本平衡上創造出新標準。

低成本背後的 2 大關鍵技術

DeepSeek 能在 2 年內以僅 557 萬美元開發出高性能的 AI 模型,與 OpenAI 的 GPT-4 模型訓練成本 6300 萬美元形成鮮明對比,甚至超越未來 GPT-5 可能高達 5 億美元的預算。這些成果背後,得益於以下幾項創新技術:

廣告(請繼續閱讀本文)

精準啟用部分「腦細胞」
DeepSeek-V3 採用了一種名為「混合專家架構」的設計,簡單來說,它只會在需要時啟動部分「腦細胞」而不是全部,這樣就大大降低了運算資源的消耗,訓練該模型只使用了 2048 部 NVIDIA H800 GPU。

廣告(請繼續閱讀本文)

數據處理及節能創新
DeepSeek 開發內部工具生成高質量訓練數據,並使用「蒸餾技術」進一步壓縮運算資源。訓練過程中採用 FP8 技術,這種低精度數據格式能顯著降低顯存需求,同時提升效率。FP8 的使用讓記憶體需求僅為傳統 FP16 技術的一半,而計算性能依然不減。

手機及平板等將有更大 AI 優勢

DeepSeek-V3 的設計在推理過程中顯著減少了資源需求,這得益於其創新的「混合專家架構」。這個模型僅需啟動 370 億參數進行推理,而非動用完整模型的 6710 億參數,從而降低了即時運算的資源消耗。相比之下像 GPT-4 這類完整模型在推理時通常需要大量運算能力和內存資源,其運行可能需要數百 GB 的記憶體支持。

為進一步提升效能,DeepSeek-V3 引入多頭潛在注意力(MLA)技術,能大幅壓縮長文本處理時的記憶體需求,減少高達 96% 的資源消耗。同時解耦位置編碼(RoPE)的加入,也確保壓縮後的數據仍能準確保留位置信息,進一步提升推理速度與準確性。

這些突破讓人們看到,未來 AI 不僅能以高效能運行於高端伺服器,甚至能輕鬆移植到手機和平板等消費性裝置上運行,讓用戶以低成本享受到媲美傳統高性能硬件的 AI 功能,為市場帶來真正的平民化技術體驗。

訓練模型被受質疑

雖然 DeepSeek 展現了極大的潛力,卻也引來了一些質疑。例如,DeepSeek-V3 在測試中自稱為 ChatGPT,讓外界懷疑其訓練數據中是否包含了 ChatGPT 生成的內容。這引發了關於模型獨立性和數據透明性的討論。至今 DeepSeek 尚未作出正式回應,這也突顯了 AI 技術在發展過程中,透明化與規範化的必要性。Open AI 的 Sam 也在 X 上也好像對此發表了「有意思」的說話

6 大原因讓科技巨頭們感到意外

探討了 Deepseek 背後的技術後,我們了解一下為何它在業界引起極大迴響:

低成本與高效率
Deepseek 的開發僅用了兩個月和約 550 萬美元,顯著低於 OpenAI 和 Google 等巨頭開發模型所需的數十億美元。這種快速、高效的開發模式顯示出現有大型語言模型 (LLM) 的障礙正在大幅縮小。

性能不算落後
根據第三方的測試基準,Deepseek 的性能與 OpenAI 和 Meta 的最先進模型相當,甚至在某些領域表現更佳。這表明訓練出高性能的模型不再需要巨額的資金投入。

打破硬件限制
Deepseek 使用 NVIDIA H800 晶片進行訓練,這是一種性能較 H100 低但更易於獲取的版本。這種方法不僅降低了硬體成本,還避開了對 H100 的供應限制。

挑戰現有巨頭的市場優勢
Deepseek 的出現表明,巨頭如 OpenAI、Google 和 Meta 在人工智能領域的領先地位可能被新興競爭者動搖。這對現有產業格局是一個重要的警示。

對投資者的啟示
Deepseek 的成功讓投資者重新思考是否仍需投資於成本高昂的前沿模型訓練,或是以更低成本探索相似的成果。這可能改變資金流向,對現有市場秩序產生深遠影響。

總結 : 中國特色的 AI 發展之路

中國市場具備全球最龐大的數據資源,但在硬件運算能力上受制於多重因素,例如技術封鎖與硬件供應短缺,這使得中國 AI 企業更加注重效率優化。DeepSeek 的成功,正好展現了資源與效能的全新平衡點。與此同時,Google、微軟和 Meta 等巨頭因巨大的 AI 訓練耗電量,已經開始押注核能支持未來的發展。相比之下 DeepSeek 等新興企業顯然選擇了不同的道路,以技術創新減少資源浪費,為整個行業提供了新思路。DeepSeek 的故事告訴我們,未來 AI 的競爭不僅在於技術本身,更在於如何以有限資源達成最佳結果。這種模式或許正是改變市場遊戲規則的關鍵。

**這是小編 2024 最後一篇技術文章,祝各位身體健康,2025 年再見 **

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

更多 科技 相關文章

川普就職典禮 扎克伯格偷瞄貝佐斯未婚妻胸前畫面瘋傳
VOCO News
【評測】Sony A1 II 旗艦級相機 對焦、追蹤效能超強 + 高像素除雜訊超強
Unwire.hk
警察免費發放 AirTag 助減低汽車盜竊
流動日報
謎擬Q與月亮伊布的素描風格設計!UNIQLO所推出的「Pokémon Sketch」UT 系列將於2025年3月下旬發售
Saiga NAK
中國 DeepSeek 發佈推理型 AI 模型 R1 宣稱部份領域擊敗 OpenAI o1
流動日報
iPhone SE 4 或配備動態島 Dynamic Island 設計
流動日報
工程師將 Doom 移植至 Word 文件 僅需 6.6MB 即可啟動遊戲
流動日報
黃仁勳Chok足樣大讚華為 Mate XT 指三摺疊技術「不可思議」
Unwire.hk
中國 iPhone 減價回應數碼產品補貼 民眾剛好可用國家補貼買 iPhone、iPad、Apple Watch
Unwire.hk
特朗普撤拜登 AI 風險行政命令 強調自由創新優先
Unwire.hk
【教學】fullmoon AI 模型整個裝到 iPhone  免費即用、毋須連網 VPN、模型參數 3b
Unwire.hk
M3 iPad Air 與新 Magic Keyboard 或提早發佈
流動日報
【評測】vivo X200 Pro 港行詳細評測 單手操控體驗一般 + 相機表現理想 + 電量超「長氣」
Unwire.hk
系列最新作品「真・三國無雙 ORIGINS」1月17日上市!首發預告片公開與舉辦有機會獲得豪華周邊的活動!
Saiga NAK
Canon 推出直播 App《Live Switcher Mobile》 支援 3 iPhone/iPad 多角度鏡頭切換
流動日報
美FTC 判《原神》抽卡機制不透明 米哈遊被罰款 1.5 億、部分玩家可獲退款
Unwire.hk
議員:香港虛擬貨幣發展遠遜新加坡 證監會:監管穩定性、安全性領先全球
Unwire.hk
Instagram 調整 Profile 內容顯示方式:方形改為矩形
流動日報
本地大學推防騙教育 學生要答防騙問卷、反詐騙納入課程
Unwire.hk
Elon Musk 少有發聲批評中國 「TikTok 可在美營運,為何 X 在中國被禁」
Unwire.hk
Zoom 多項必用 AI 新功能 助企業、員工提升生產力
Unwire.hk
MSI推出輕薄的高性能筆記型電腦「Prestige-13-A13M-5023JP」「Prestige-13Evo-A13M-5033JP」,1月23日發售!
Saiga NAK
寧德時代香港首個「巧克力換電站」動工 一百秒內電車迅速換電池
Unwire.hk
2025「行動電源推薦」16款:小巧便攜自帶線、支援多裝置同步充電、千元有找磁吸充電...總有一款適合你! | Women's Health
Women’s Health
Meta:美國以外地區 Fact Check 機制維持不變
流動日報
特朗普誓言火星插旗 SpaceX 或受惠 Elon Musk 展露微笑
Unwire.hk
Reolink NVS16-NHD 高清 PoE 網絡監控 NVR
Unwire.hk
AI分析財報電話會議 超9500名CEO可能患抑鬱
Unwire.hk
留言 1
  • ロジャー マー
    「…**這是小編 2024 最後一篇技術文章,祝各位身體健康,2025 年再見 **…」 小編 真心見倒您好有心去寫lee篇文章🥰 响度都祝您2025年身體健康、心想事成😉♥️
    2024年12月31日18:15
顯示全部