請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

梁文鋒親自參與!DeepSeek發最新論文迎戰Grok-3 專家:給開源AI研究帶來最新貢獻

anue鉅亨網

更新於 2025年02月20日06:50 • 發布於 2025年02月20日06:50
梁文鋒親自參與!DeepSeek發最新論文迎戰Grok-3 專家:給開源AI研究帶來最新貢獻

馬斯克周二 (18 日) 發表 Grok-3,號稱「地球上最聰明 AI」,而近期爆紅的 DeepSeek 也沒閒著,在當天發表名為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的一項重要論文,介紹一種新的稀疏注意力機制(Natively Sparse Attention,NSA),用於提升長文本訓練和推理的效率,並具備硬體對齊和端到端訓練的特性。

簡單來說,就是教會 AI「一目十行」。這項技術有望大幅提升下一代大語言模型 (LLM),處理長文本的能力,同時還能兼顧效率,可謂是 AI 大模型,里程碑式的進展。

截至周三 (19 日) 下午,這篇推文在 X 上已有超過 180 萬觀看量,且值得一提的是,DeepSeek 創辦人梁文鋒也出現在這篇論文的作者名單中,但在作者排名中只排倒數第二,這意味著他或許只是專案管理者。

這篇論文的第一作者名叫袁景陽 (Jingyang Yuan),是在 DeepSeek 實習期間,完成這篇論文。他目前是北京大學碩士研究生,研究領域包括 LLM、人工智慧在科學中的應用 (AI for Science)。

第二作者是高華佐 (Huazuo Gao),來自廣東,2012 年在華南師範大學附屬中學就讀,就曾獲第 29 屆全國中學生物理競賽一等獎,次年保送至北京大學物理學院。

第三作者是代達劢 (Damai Dai),畢業於重慶市巴蜀中學,高考 697 分進入北京大學,去年博士畢業後加入 DeepSeek,全程參與從 DeepSeek v1 到 v3 的研發。

第四作者為曾旺丁 (Wangding Zeng),2017 年至 2023 年就讀於北京郵電大學人工智慧學院,碩士期間主要學習人工智慧方向,導師為張洪剛,2018 年曾獲全國大學生數學競賽(非數學類)二等獎。

這次 DeepSeek 團隊推出的 NSA 就是為了解決現有稀疏注意力機制的缺點,提高計算效率。

傳統的 Transformer 非常耗記憶體,輸入越長,計算成本就越高,計算複雜度也會隨著序列長度的增加而呈平方級增長,計算成本高昂且延遲大,這便成為 LLM 發展的瓶頸。

如今,有了 DeepSeek 的 NSA,在處理 64k 長度的序列時,在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達 11.6 倍。

此外,Deepseek 研究人員還將 NSA 與 FA2 內核進行比較,實證結果顯示 NSA 在前向和後向時間上的執行速度分別快了 9 倍 / 6 倍。

NSA 還支援端到端可訓練稀疏模式,減少預訓練成本。它需要相對較少的 token 來理解事物,這就意味著訓練成本大幅下滑。

業內人士表示,DeepSeek 這篇 NSA 機制的論文內容詳實,涉及的技術細節闡釋清晰,可操作性強,是 DeepSeek 給開源 AI 研究貢獻的最新成果。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

查看原始文章

更多理財相關文章

01

人口流動警訊3/北市大失血 4.4萬人搬離

經濟日報
02

高招!12歲男童買1600萬房 富爸爸一招免繳贈與稅

壹蘋新聞網
03

36歲租屋族1投資大法「每月躺收3萬」!菜單震驚網:不用看老闆臉色了

民視新聞網
04

打不贏也輸不起?CNN分析:川普的伊朗戰爭恐只剩「一條路」

anue鉅亨網
05

油價再漲! 中油:下週汽柴油各調漲1.7元、1.5元

台視
06

油價炸裂!沙國阿美暴衝1.74兆美元 台積電慘遭擠出全球前6

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...