請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

新模型 R2 延後主因!DeepSeek 嘗試華為晶片失敗,還是得靠 NVIDIA

科技新報

更新於 2025年08月15日07:45 • 發布於 2025年08月14日15:22

中國人工智慧(AI)公司 DeepSeek 在嘗試使用華為晶片訓練新模型失敗後,延後新一代模型的發布,這也凸顯北京推動取代美國技術的困難。

知情人士透露,DeepSeek 在 1 月發布 R1 模型後,受到官方鼓勵,改採用華為昇騰(Ascend)處理器,而非 NVIDIA 系統。

然而,在使用昇騰晶片進行 R2 訓練過程中持續遇到技術問題,因此改回 NVIDIA 晶片進行訓練,僅在推理(Inference)階段使用華為晶片。知情人士透露,這是模型發布從 5 月延後的主要原因,導致 DeepSeek 在競爭中落後。

所謂「訓練」是模型透過大量資料集中學習,「推理」則利用已訓練好的模型進行預測或產生回應。由此可知,中國晶片在關鍵任務上仍落後美國競爭對手,這也是中國追求半導體自給自足所面臨的挑戰。

外媒《金融時報》(FT)指出,北京已要求中國科技公司必須為訂購 NVIDIA H20 晶片提供正當理由,藉此推廣華為、寒武紀(Cambricon)等國產替代方案。

業界人士認為,與 NVIDIA 產品相比,中國晶片存在穩定性問題、晶片間連線速度較慢,以及軟體水準較差等劣勢。

據悉,華為曾派出一支工程師團隊前往 DeepSeek 辦公室,協助利用其 AI 晶片開發 R2 模型。但即使如此,DeepSeek 仍無法在昇騰晶片上成功完成一次訓練。不過,DeepSeek 與華為合作改為將模型在推理(Inference)階段能相容於昇騰晶片。

知情人士透露,DeepSeek 創辦人梁文鋒在內部表達對 R2 進展不滿,並努力投入更多時間打造更先進模型,以維持公司在 AI 領域的領先地位。R2 發布延後的原因還包括更新模型所需的資料標註時間比預期更長,根據中媒報導,該模型有望在未來數週內發布。

加州大學柏克萊分校 AI 研究員 Ritwik Gupta 認為,將昇騰用於訓練這方面,華為正在經歷「成長痛」,但預期它最終會適應,「我們今天還沒看到用華為訓練的領先模型,不代表未來不會發生。這只是時間問題」。

(首圖來源:Unsplash

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

台積重返龍潭1/自救會消失不代表同意!龍潭阿婆「不想搬」 66戶居民成關鍵

CTWANT
02

黃仁勳撲空?輝達H200賣中國卡關 川普證實

NOWNEWS今日新聞
03

勞保必知1/勞保+國保繳28年竟幾乎領不到 單身男過世家屬只拿9萬喪葬費

鏡週刊
04

三星電子18天大罷工倒數!工會拒絕讓步、南韓政府罕見警告 半導體供應鏈恐遭重擊

anue鉅亨網
05

只買1股也賺爆!作家曬「超狂報酬率」…資深股民曝訣竅:可以買一台國產車

鏡報
06

擦一次屁股變貴了?戰爭燒到衛生紙 永豐餘:苦撐暫無調價規劃

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...