請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

國際

DeepSeek新模型延發表 用華為棄輝達釀災 

NOWNEWS今日新聞

更新於 08月14日16:00 • 發布於 08月14日16:00 • 國際中心顏得智/綜合報導
▲中國人工智慧公司深度求索(DeepSeek)延遲了新模型的發佈。(圖/擷取自pixabay)

[NOWnews今日新聞] 中國人工智慧公司深度求索(DeepSeek)延遲了新模型的發佈,英媒金融時報揭露,因DeepSeek在使用華為昇騰晶片訓練新模型失敗,持續出現技術問題,不得不使用輝達晶片訓練,突顯了中國在取代美國技術上的限制。

根據金融時報報導,三位知情人士透露,在今年 1 月推出 R1 模型後,深度求索在中國政府的鼓勵下選擇使用華為昇騰(Ascend)晶片,而不是輝達的晶片。

然而,在使用昇騰晶片進行 R2 訓練過程中,遇到持續的技術問題,最終不得不採用輝達晶片進行訓練,在推理階段才使用華為晶片。報導引述一位熟悉內情的人士表示,上述技術是R2模型預定從5月發布,卻延遲的主要原因。

金融時報強調,訓練是指讓模型透過大量資料集中進行學習;推理則是讓已完成訓練的模型預測或生成回應,例如聊天機器人回答用戶提問。DeepSeek的困境顯示,中國晶片在關鍵任務上仍落後美國對手,也凸顯中國在實現科技自主上面臨挑戰。

金融時報本週稍早曾報導,中國政府要求中國科技公司對採購輝達H20晶片訂單說明理由,目的在鼓勵這些公司使用華為與寒武紀等公司生產的替代品,但業內人士表示,中國晶片存在穩定性不足、晶片間連接速度較慢以及軟體劣於 Nvidia 產品等問題。

據兩位知情人士透露,華為曾派出一支工程師團隊到DeepSeek辦公室協助該公司使用其 AI 晶片開發 R2 模型,依然無法在昇騰晶片上成功完成一次訓練,DeepSeek仍在與華為合作,力求讓該模型在推理階段可與昇騰晶片相容。

加州大學柏克萊分校(University of California, Berkeley)AI研究員古普塔(Ritwik Gupta)表示,模型本身就是可以輕易更換的商品。現在許多開發者都在使用阿里巴巴的「通義千問3」(Qwen3),功能強大又具彈性。

古普塔指出,通義千問3採用了DeepSeek的核心理念,例如能讓模型具備推理能力的訓練演算法,但在使用效率上做得更好。但他仍研判,雖然現在沒看到頂尖模型使用華為晶片訓練,不代表未來不會發生。

立即加入NOWnews今⽇新聞官⽅帳號!跟上最HOT時事

查看原始文章

更多國際相關文章

01

日本青森7.6強震!玻璃門爆裂 超過4千戶停電

NOWNEWS今日新聞
02

日本7.5強震後5.6餘震!青森多地傳火災 森林火災肆虐如「煉獄」景象

三立新聞網
03

日本青森近海7.6強震!首波海嘯已抵達 居民、旅客衝避難所避難

三立新聞網
04

藍到發光!草叢驚見「藍毛狗狗」竟不是輻射突變 專家1句話揭真相:讓人想笑又想哭

鏡週刊
05

狠心畫面曝!登山好手攀奧地利最高峰 竟放生女友-8℃活活凍死

自由電子報
06

匈奴真的「神祕消失」?兩千年懸案逼近真相 最新DNA研究驚曝:歐洲祖先疑藏東方血

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 14

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...