DeepSeek新模型延發表　用華為棄輝達釀災

▲中國人工智慧公司深度求索（DeepSeek）延遲了新模型的發佈。（圖／擷取自pixabay）

[NOWnews今日新聞] 中國人工智慧公司深度求索（DeepSeek）延遲了新模型的發佈，英媒金融時報揭露，因DeepSeek在使用華為昇騰晶片訓練新模型失敗，持續出現技術問題，不得不使用輝達晶片訓練，突顯了中國在取代美國技術上的限制。

根據金融時報報導，三位知情人士透露，在今年 1 月推出 R1 模型後，深度求索在中國政府的鼓勵下選擇使用華為昇騰（Ascend）晶片，而不是輝達的晶片。

然而，在使用昇騰晶片進行 R2 訓練過程中，遇到持續的技術問題，最終不得不採用輝達晶片進行訓練，在推理階段才使用華為晶片。報導引述一位熟悉內情的人士表示，上述技術是R2模型預定從5月發布，卻延遲的主要原因。

金融時報強調，訓練是指讓模型透過大量資料集中進行學習；推理則是讓已完成訓練的模型預測或生成回應，例如聊天機器人回答用戶提問。DeepSeek的困境顯示，中國晶片在關鍵任務上仍落後美國對手，也凸顯中國在實現科技自主上面臨挑戰。

金融時報本週稍早曾報導，中國政府要求中國科技公司對採購輝達H20晶片訂單說明理由，目的在鼓勵這些公司使用華為與寒武紀等公司生產的替代品，但業內人士表示，中國晶片存在穩定性不足、晶片間連接速度較慢以及軟體劣於 Nvidia 產品等問題。

據兩位知情人士透露，華為曾派出一支工程師團隊到DeepSeek辦公室協助該公司使用其 AI 晶片開發 R2 模型，依然無法在昇騰晶片上成功完成一次訓練，DeepSeek仍在與華為合作，力求讓該模型在推理階段可與昇騰晶片相容。

加州大學柏克萊分校（University of California, Berkeley）AI研究員古普塔（Ritwik Gupta）表示，模型本身就是可以輕易更換的商品。現在許多開發者都在使用阿里巴巴的「通義千問3」(Qwen3)，功能強大又具彈性。

古普塔指出，通義千問3採用了DeepSeek的核心理念，例如能讓模型具備推理能力的訓練演算法，但在使用效率上做得更好。但他仍研判，雖然現在沒看到頂尖模型使用華為晶片訓練，不代表未來不會發生。

國際