中國 AI 公司新發表 DeepSeek V3 ：一文看清 2 大技術及 6 個原因讓 AI 巨頭們感意外

中國科技公司 DeepSeek 公佈了其 v3 模型，小編覺得是今年最大驚喜的開源 AI 模型，然而有人發現該模型在回答時自稱為「ChatGPT」，因此戲稱它為抄襲之作。作為香港的科技媒體，我們認為與其停留在嘲笑中，不如深入探討這款 AI 為何能讓業界震驚。這並非傳統的「無知識產權、低成本抄襲並大量出貨」的淘寶貨模式，而是一次可能改寫市場規則的 AI 技術突破。

DeepSeek 是什麼公司？

廣告（請繼續閱讀本文）

DeepSeek 是由中國私募基金「幻方量化」於 2023 年創立的人工智慧公司，專注於開發先進的 AI 技術。雖然成立時間不長，DeepSeek 憑藉高效技術創新，迅速成為 AI 領域的焦點。其最新成果 DeepSeek-V3 模型，擁有高達 6710 億個參數，在性能與成本平衡上創造出新標準。

低成本背後的 2 大關鍵技術

DeepSeek 能在 2 年內以僅 557 萬美元開發出高性能的 AI 模型，與 OpenAI 的 GPT-4 模型訓練成本 6300 萬美元形成鮮明對比，甚至超越未來 GPT-5 可能高達 5 億美元的預算。這些成果背後，得益於以下幾項創新技術：

廣告（請繼續閱讀本文）

精準啟用部分「腦細胞」
DeepSeek-V3 採用了一種名為「混合專家架構」的設計，簡單來說，它只會在需要時啟動部分「腦細胞」而不是全部，這樣就大大降低了運算資源的消耗，訓練該模型只使用了 2048 部 NVIDIA H800 GPU。

廣告（請繼續閱讀本文）

數據處理及節能創新
DeepSeek 開發內部工具生成高質量訓練數據，並使用「蒸餾技術」進一步壓縮運算資源。訓練過程中採用 FP8 技術，這種低精度數據格式能顯著降低顯存需求，同時提升效率。FP8 的使用讓記憶體需求僅為傳統 FP16 技術的一半，而計算性能依然不減。

手機及平板等將有更大 AI 優勢

DeepSeek-V3 的設計在推理過程中顯著減少了資源需求，這得益於其創新的「混合專家架構」。這個模型僅需啟動 370 億參數進行推理，而非動用完整模型的 6710 億參數，從而降低了即時運算的資源消耗。相比之下像 GPT-4 這類完整模型在推理時通常需要大量運算能力和內存資源，其運行可能需要數百 GB 的記憶體支持。

為進一步提升效能，DeepSeek-V3 引入多頭潛在注意力（MLA）技術，能大幅壓縮長文本處理時的記憶體需求，減少高達 96% 的資源消耗。同時解耦位置編碼（RoPE）的加入，也確保壓縮後的數據仍能準確保留位置信息，進一步提升推理速度與準確性。

這些突破讓人們看到，未來 AI 不僅能以高效能運行於高端伺服器，甚至能輕鬆移植到手機和平板等消費性裝置上運行，讓用戶以低成本享受到媲美傳統高性能硬件的 AI 功能，為市場帶來真正的平民化技術體驗。

訓練模型被受質疑

雖然 DeepSeek 展現了極大的潛力，卻也引來了一些質疑。例如，DeepSeek-V3 在測試中自稱為 ChatGPT，讓外界懷疑其訓練數據中是否包含了 ChatGPT 生成的內容。這引發了關於模型獨立性和數據透明性的討論。至今 DeepSeek 尚未作出正式回應，這也突顯了 AI 技術在發展過程中，透明化與規範化的必要性。Open AI 的 Sam 也在 X 上也好像對此發表了「有意思」的說話

6 大原因讓科技巨頭們感到意外

探討了 Deepseek 背後的技術後，我們了解一下為何它在業界引起極大迴響:

低成本與高效率
Deepseek 的開發僅用了兩個月和約 550 萬美元，顯著低於 OpenAI 和 Google 等巨頭開發模型所需的數十億美元。這種快速、高效的開發模式顯示出現有大型語言模型 (LLM) 的障礙正在大幅縮小。

性能不算落後
根據第三方的測試基準，Deepseek 的性能與 OpenAI 和 Meta 的最先進模型相當，甚至在某些領域表現更佳。這表明訓練出高性能的模型不再需要巨額的資金投入。

打破硬件限制
Deepseek 使用 NVIDIA H800 晶片進行訓練，這是一種性能較 H100 低但更易於獲取的版本。這種方法不僅降低了硬體成本，還避開了對 H100 的供應限制。

挑戰現有巨頭的市場優勢
Deepseek 的出現表明，巨頭如 OpenAI、Google 和 Meta 在人工智能領域的領先地位可能被新興競爭者動搖。這對現有產業格局是一個重要的警示。

對投資者的啟示
Deepseek 的成功讓投資者重新思考是否仍需投資於成本高昂的前沿模型訓練，或是以更低成本探索相似的成果。這可能改變資金流向，對現有市場秩序產生深遠影響。

總結 : 中國特色的 AI 發展之路

中國市場具備全球最龐大的數據資源，但在硬件運算能力上受制於多重因素，例如技術封鎖與硬件供應短缺，這使得中國 AI 企業更加注重效率優化。DeepSeek 的成功，正好展現了資源與效能的全新平衡點。與此同時，Google、微軟和 Meta 等巨頭因巨大的 AI 訓練耗電量，已經開始押注核能支持未來的發展。相比之下 DeepSeek 等新興企業顯然選擇了不同的道路，以技術創新減少資源浪費，為整個行業提供了新思路。DeepSeek 的故事告訴我們，未來 AI 的競爭不僅在於技術本身，更在於如何以有限資源達成最佳結果。這種模式或許正是改變市場遊戲規則的關鍵。

**這是小編 2024 最後一篇技術文章，祝各位身體健康，2025 年再見 **

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物即上 unwire store
https://store.unwire.hk/

DeepSeek 是什麼公司？

低成本背後的 2 大關鍵技術

手機及平板等將有更大 AI 優勢

訓練模型被受質疑

6 大原因讓科技巨頭們感到意外

總結 : 中國特色的 AI 發展之路

更多科技相關文章

查看更多 Unwire.hk 的文章

中國 AI 公司新發表 DeepSeek V3 ：一文看清 2 大技術及 6 個原因讓 AI 巨頭們感意外

DeepSeek 是什麼公司？

低成本背後的 2 大關鍵技術

手機及平板等將有更大 AI 優勢

訓練模型被受質疑

6 大原因讓科技巨頭們感到意外

總結 : 中國特色的 AI 發展之路

更多 科技 相關文章

查看更多 Unwire.hk 的文章

更多科技相關文章