請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Hot Chips 2023》Nvidia Grace CPU 的核心:Arm Neoverse V2

科技新報

更新於 2023年09月06日15:48 • 發布於 2023年09月06日07:50

「Arm 伺服器」在博通(Broadcom)、高通(Qualcomm)、AMD、三星(Samsung)等老牌半導體巨頭及 Calxeda 和 Applied Micro 等新創公司,經歷多次失敗嘗試,以及 Cavium 憑借 ThunderX 和 ThunderX2 取得極為有限的成績後,才漸有起色。這些年來,以 AWS 的 Graviton 家族為代表,Arm 指令集相容伺服器晶片發展極為迅速,預估銷售總額達總市場 10%,扣除 CISC 大型主機和數量越來越少的 RISC / Unix 伺服器,其餘還是 x86 雙雄的天下。

Arm 在 2018 年 10 月推出「雲端到邊緣基礎設施」Neoverse 產品線,包括最佳性能的 V 系列、可擴展效率的 N 系列、功耗面積縮減最佳化的 E 系列,並在 2020 年 9 月宣布將「極致效能」Neoverse V1(高效能運算、雲端運算和 AI / ML 加速型工作負載)和「高擴展性效能」Neoverse N2(高擴展度的雲端運算與基礎設施)導入發展藍圖。這些 Neoverse 體系 IP 都是針對台積電特定製程量身訂做,並混合 Arm 其他 IP,使伺服器晶片製造商更容易快速研發產品。Arm 對 Neoverse 的承諾是「每年推出一個新 Arm 伺服器平台,並每代產品提高起碼 30% 性能」。

▲ Arm Neoverse 發展藍圖,這也是時下 Arm 指令集相容伺服器處理器的基礎,不知道蘋果會不會共襄盛舉。

故單晶片與單執行緒一直是 Arm Neoverse V 系列最受看重的性能指標,像使用 Arm Neoverse V1 的 AWS Graviton3 就是最好例證。2022 年 9 月 15 日 Arm 宣布 Arm Neoverse 再添新成員,同時推出代號「Demeter」的 Neoverse V2 和 Neoverse E2,再度擴大伺服器晶片版圖,前者更是由 Nvidia Grace CPU 率先採用,內建 72 個 Neoverse 核心,但當時 Arm 並未透露 Neoverse V2 效能提升幅度。今年 Hot Chips 2023(第 35 屆),Arm 終於公開 Neoverse V2 技術細節,並以 SPEC CPU 整數測試項目,預估每環節變化對性能的影響,看起來頗酷。

▲ Arm Neoverse 的現況,除了因 Nvidia 倍受注目的 Neoverse V2,本屆 Hot Chips 有另外一場整合大量 Neoverse N2 核心與其他功能 IP 以加速產品開發、適用 Chiplet 的 CSS(Compute Subsystem)N2 議程,留待筆者另一篇文章介紹。

▲ Neoverse V2 核心微架構的全貌,經過多年發展,Arm「本家」核心也走到「每個時脈週期可解碼六個指令,並派發八個微指令(uOp)給執行單元」規模,即使看似落後蘋果好幾年。

▲ Arm 以 SPEC CPU 2017 整數運算項目為基礎,抽絲剝繭陳述每個改進環節的效能提升幅度,整體增加 13% 並減少 10.5% 系統快取記憶體(SLC)誤失率。

▲ Neoverse V2 製程從台積電 7 奈米縮小成 5 奈米,儘管 L2 快取容量倍增(1MB→2MB),但功耗僅增加 17%,晶粒面積也大致相同。

▲ 理所當然的,Neoverse V2「平台」可藉 CMN-700 互連匯流排,增加核心數量、擴充快取容量並連接其他功能 IP 區塊,但像 PCIe Gen5 和 CXL 就需要另外購買。

▲ Arm 以 SPEC CPU 2017 整數運算為 Neoverse V2 評估基準,單執行緒和多執行緒吞吐量相較 Neoverse V1,個別成長 13% 與 17.3%。

▲ 快取記憶體也有 13%~18% 效能提升。

▲ 網頁與 Proxy 伺服器則介於 20%~32%,成長顯著。

▲ 受惠於大幅改進的分支預測和指令預先擷取,分支密集資料可激增 35%~104% 效能,並減少 80% 分支預測錯誤與 70% 無用預先擷取。

▲ 人工智慧正夯,Arm 亦不可免俗強調 AI 應用,執行機械學習 XGBoost(eXtreme Gradient Boosting)極限梯度增强算法時,提升幅度高達 67%~114%。

▲ 這就是如假包換的頂上決戰:144 核心 Nvidia Grace CPU Superchip 對上兩顆 AMD EPYC 9654(總計 192 核心)和兩顆英特爾 Xeon 8480+(共 112 核心),相同功耗,吞吐量大致可達 AMD 兩倍,更不用講看來只是沙包的英特爾了。

▲ 這就是總結。

  • 相對 Neoverse V1,Neoverse V2 提升 13% SPEC CPU 2017 整數運算效能,據不同工作負載,可提高 15%~100%。

  • 人工智慧相關應用,最多可達兩倍效能,含 XGBoost 最高 114%(平均 83%)。

  • Nvidia Grace CPU Superchip 痛宰 x86 雙雄的頂規伺服器 CPU。

毫無疑問的,AWS、阿里巴巴和 Google 這些雲端巨頭陸續自研 Arm 指令集相容處理器後(Google 謠傳 2025 年開始使用兩款資料中心晶片),Arm 的伺服器 CPU IP 就是縮短產品研發時程的好幫手,也有充分理由相信,Nvidia Grace CPU Superchip 也注定不會是唯一採用 Arm Neoverse V2 的產品,應該有很多專案已在路上了。

(首圖來源:Arm

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

通勤族注意!北捷閘門大更新:明年1月手機掃碼先行、7月iPhone免解鎖直接「嗶」

數位時代
02

LINE Pay、LINE Pay Money與iPASS MONEY差異在哪?怎麼使用一次看懂

手機王
03

美新創公司申請撤銷推特商標 主張馬斯克X平台已棄用

路透社
04

元宇宙沒死,只是變形——Meta為何併購AI穿戴裝置新創Limitless?

創業小聚
05

傳美國準備放行H200出口中國 輝達股價聞訊漲逾2%

路透社
06

Meta將依規定 明年起提供歐盟用戶個人化廣告選擇權

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...