請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Hot Chips 2024》邊緣運算與電信應用迎擊 AMD 並點燃大反擊狼煙:英特爾 Xeon 6 SoC

科技新報

更新於 2024年09月19日16:02 • 發布於 2024年09月23日07:50

受到人工智慧狂潮的衝擊,2024 年處理器業界年度盛會 Hot Chips 可謂「AI Everywhere」,幾乎所有議程都繞著 AI 轉,只有少數聚焦伺服器與個人電腦 CPU 的「不合群分子」,但在「人工智慧伺服器」和「AI PC」成隨處可見標語的世道,請別忘了,就算有 GPU、NPU 和各式各樣 AI 加速器,伺服器和個人電腦依舊需要 CPU 擔任整台電腦的「大腦」。

論伺服器 CPU,英特爾本屆 Hot Chips 揭露新「多晶片封裝系統單晶片」Xeon 6 SoC(代號 Granite Rapids-D),雖然說到底,也僅為現有產品的延伸產物,但也值得一窺奧妙之處。更重要的是:被 AMD 壓著打多年,英特爾終於用 Xeon 6 還手反擊,更重複利用現有「積木」(小晶片Chiplet)踏出看似毫不起眼卻極度重要的一大步。

▲ Xeon 6 SoC 出世象徵英特爾最新世代 Xeon 處理器涵蓋邊緣到雲端應用,並英特爾也踏出像 AMD「拼湊現有積木」的第一步。

目標電信業與物聯網邊緣運算的新世代 Xeon D:Xeon 6 SoC

以既有 Xeon 核心為基礎,針對嚴苛環境的邊緣運算應用,最惡劣條件下提供可信賴的可靠性,英特爾 2015 年首度推出以 BGA 封裝焊死至主板的 Xeon D-1500 系列處理器(代號 Broadwell-DE),也是其首款伺服器級系統單晶片(SoC,System on Chip),同時整合系統晶片組、記憶體控制器、I/O 與乙太網路界面,後來依序發展成 D-2100(Skylake-DE)與 D-1700 / D-2700(Ice Lake-DE),並陸續導入各式各樣「加速器」──都是 AMD 沒有的武器。

▲ Xeon D 是如假包換的高效能伺服器「系統單晶片」,雖然從現在開始也要變成「多餡水餃」了。

Xeon D 訴求在「比入門級 Xeon 更優每瓦效能和比 Atom 更強的絕對性能,比中高階 Xeon 多更低功耗和更高密度」,藉卓越單核心效能,與新興 Arm 伺服器解決方案競爭,尤其阻擋後者從網路儲存伺服器這個「破口」滲透市場,不過隨著 Arm 伺服器市場威脅早轉移至雲端資料中心,英特爾也就不再積極推陳出新。

也因此,本次 Xeon 6 SoC(Granite Rapids-D)等於跳過兩個 Xeon 世代(第四代 Sapphire Rapids,第五代 Emerald Rapids),以先進 2.5D 多晶片封裝技術 EMIB,從現有「Chiplet 積木」組合而成,對英特爾伺服器處理器不啻是重大里程碑,總算能勉強看到 AMD EPYC 家族的車尾燈,並可以電信業與物聯網邊緣運算對抗 EPYC 8004 與內建乙太網路的嵌入式 Ryzen。

▲ 既然英特爾也用「包水餃」製造 Xeon 6,當然也可沿用現成「積木」去「拼裝」出符合其他應用的產品,英特爾 Xeon 6 家族初步實現 Chiplet 共通性,堪稱英特爾的一大步,即便距離靈活多變的 AMD 仍有大段差距。

▲ Xeon 6 SoC 規格重點都在這張簡報上了,看在似曾相識風格分上,只能說蘋果產品發表會對整個業界影響還真不小。

英特爾宣稱 Xeon 6 SoC 規格是基於「全球超過九萬個邊緣應用部署案例,累積的豐富知識與經驗」而擬定,旨在提高邊緣和網路負載的運算效能與能源效率,亮點大致如下。

Xeon 6 SoC(原稱 Granite Rapids-D)整體架構:

  • 整合一至兩個計算區塊(Compute Chiplet)與一個 I/O 區塊(I/O Chiplet)。

  • 兩種 BGA 封裝尺寸分別對應四通道(一個計算區塊)與八通道(兩個計算區塊)。

  • 支援英特爾 Tiber Edge Platform,讓使用者「在標準硬體實現雲端般簡便的組建、部署、執行、管理、調整邊緣和 AI 解決方案」。

計算區塊:

Intel 3 製程(改良型 7 奈米)。

  • 推估單一晶粒最多 44 個核心。

  • 最大核心數不明,英特爾展示 42 核心版。

沿用 Xeon 6P「大核」(P-Core)Redwood Cove。

  • AMX(Advanced Matrix Extensions)矩陣運算加速器:如第四代和第五代 Xeon-SP,每個核心均有 AMX,既有 INT8與BF16 之外,Xeon 6 追加 FP16 格式。借助於更充沛的記憶體頻寬、更大的快取記憶體容量、支援 FP16 的 AMX 與可同時運行更多的記憶體存取需求,AI 與其他類型工作負載混合情況,可達成第四代 Xeon-SP 兩三倍效能,更遑論「海放」連 AMX 都沒有的舊 Xeon D。

  • 存在已久的 SGX(Software Guard Extensions)與第四代 Xeon-SP 的 TDX(Trust Domain Extension):同為強化應用程式與虛擬機隔離性的機密運算技術(Confidential Computing),但個人電腦端,英特爾會逐步放棄 SGX,自 11 代 Core 處理器開始取消,英特爾規劃以全面性記憶體加密機制取代。

單一計算區塊整合四通道記憶體控制器。

  • 支援 DDR5-5600 記憶體與倍增理論頻寬的 MCR-DIMM。

I/O 區塊:

Intel 4 製程(7 奈米)。

  • 有別於標準款 Xeon 6 I/O 區塊(Intel 7 製程,10 奈米)的新設計。

PCIe 與 CXL:

  • 有資源控管機能(RDT,Resource Director Technology),追蹤和控制共用的 PCIe / CXL 資源,有助實做更佳服務品質(QoS),對部署大量虛擬機器環境更是重中之重。

  • 32 個 PCIe 5.0 通道。

  • 16 個 PCIe 4.0 通道。

  • 16 條 CXL 2.0 通道。

八個乙太網路連接埠(25G / 10G / 1G / 100M)。

  • 可轉換成四埠 50G 或兩埠 100G。

包括多種專用加速器,原本也出現在過去 Xeon:

  • QAT(Quick Assist Technology):密碼學與壓縮處理加速技術,加速對稱/非對稱加密與無失真壓縮,讓 CPU 資源釋放至其他工作,並可加速 IPsec VPN,Xeon 6 SoC 更延展至多媒體影音格式的轉碼(Transcoding),增強即時 OTT、VOD 和廣播媒體的視訊轉碼和分析。

  • vRAN Boost:編碼與解碼 4G 的渦輪碼(Turbo Code)與 5G 的低密度奇偶校驗碼(LDPC Code),以加速 4G / 5G 電信網路實體層的前導錯誤校正(FEC,Forward Error Corection)。

  • DLB(Dynamic Load Balancer):動態負載平衡,讓多核心 CPU 高效率的分散網路處理作業,並對應 NetSec 加速器參考設計平台,讓安全裝置卸載處理器運算密集的工作負載。

  • DSA(Data Streaming Accelerator):資料串流工作,協助將記憶體的資料傳輸到各個 CPU 核心,CPU 無需持續搬移記憶體資料。

  • 遺珠之憾:IAA(In-Memory Analytics Accelerator),為提升記憶體內資料查找並加速解壓縮,對資料庫特別有用,但並非 Xeon 6 SoC 目標應用,付之闕如也無傷大雅。

▲ Xeon 6 SoC 計算區塊沿用 Xeon 6P,I/O 區塊則採 Intel 4(7 奈米)製程新設計。

▲ 分而治之的多晶片封裝,兼具高頻寬與低延遲的晶片對晶片連結(以及良好的快取記憶體一致性協定)也不可少,否則邏輯上共用的快取記憶體和系統記憶體將是效能惡夢。

▲ 兩種 BGA 封裝尺寸對應不同的記憶體通道數量,較緊緻的四通道封裝對研製高密度邊緣運算系統相當重要。

▲ 考量到泛用性,Xeon 6 SoC 選用擁有 AVX-512 指令集的大核 P-Core 並不讓人感到意外。

▲ AMX 是英特爾自第四代 Xeon-SP 問世的神兵利器,無論人工智慧訓練和推論都能發揮威力,但似乎少人留意。

▲ 從 SGX 建立稱為隔離區的可信賴執行環境(TEE)可保護處理器與記憶體主動使用的資料,到 TDX 藉由硬體級隔離和虛擬機器(VM)以策略性的方式協助縮小攻擊面,並提升資料中心或雲端中資料與應用程式的防護力和機密性,都是英特爾相對於競爭對手較為完整的機密運算方案,而微軟 Azure 的機密運算服務,更是以 TDX 為基礎打造。

▲ 技術起源於 Xeon E5-2600v3(Haswell-EP)、成形於 Xeon E5-2600v4(Broadwell-EP)的 RDT,初衷是虛擬化環境,監控並配置快取記憶體和記憶體頻寬使用狀況,歷經多年發展,逐步延伸至 PCIe / CXL 等 I/O 介面。

▲ 有別於使用 Intel 7 製造的 Xeon 6 標準款,Xeon 6 SoC 的 I/O 是採 Intel 4 新規格,整合大量邊緣運算用到的加速器。

▲ 專職資料加解壓縮及加解密的 QAT 早期以專用加速卡形式存在,第三代 Xeon-SP(Ice Lake-SP)整合至系統晶片組,第四代(Sapphire Rapids)與第五代(Emerald Rapids)置入 CPU,Xeon 6 再移至 I/O 區塊,但總之都是整個處理器的一部分。

▲ 英特爾 QAT 在 Xeon 6 SoC 的最大亮點:可做多媒體格式轉碼,更利於 5G MEC(Multi-access Edge Computing)本地端高解析度影像處理和資料發送,減輕核心網路和資料中心伺服器的負擔,降低整體延遲,提供更佳服務體驗。

▲ 當 QAT 可擔綱媒體加速器,即可在 Xeon 6 SoC 內完成「一條龍」AI 視覺推論(結合 AMX)與視訊轉碼。

內憂外患的英特爾點燃伺服器戰場再次反擊 AMD 的狼煙

▲ 自從蘇姿丰(Lisa Su)2014 年 10 月接掌 AMD 執行長,耗費十年光陰,從發展 Infinity Fabric 統合 AMD 長期多頭馬車的 IP 區塊連結與控制方式,到一步一腳印貫徹執行 Chiplet 策略,逐步打造出 AMD 史上空前強大且無所不備的伺服器產品線,並藉由壓倒性 CPU 的核心數量優勢,重創英特爾資料中心營收和獲利,隨著 Xeon 6 家族登場,英特爾總算手握足以正面迎擊 AMD EPYC 的武器庫。

但爬文至此,各位看著琳瑯滿目的技術細節眼花撩亂之際,也別忘了英特爾此時此刻發表 Xeon 6 SoC 的意義何在:伺服器戰線站穩腳跟,不僅技術規格和產品線完整度追上 AMD,並極可能享有效能和功能的明顯優勢,最起碼,同為 128 核和 12 通道 DDR5 MCR-DIMM,Xeon 6900P 實在沒有理由打不贏 128 核 Zen 5 版 EPYC──這效能王冠英特爾已丟失好幾年了,Xeon 6 終究有了奪回契機。英特爾更在中秋節宣布替 AWS 客製化專用特規 Xeon 6 處理器,並以最先進 Intel 18A 製程代工自研 AI 晶片,不啻是重大戰略勝利,假如一切都很順利。

▲ 英特爾發表 Xeon 6 家族的順序也頗耐人尋味:先是 144 小核 6700E、128 大核 6900P、288 小核 6900E,最後才是 86 大核 6700P、更低階大核型號與 Xeon 6 SoC,多少可看出英特爾迎擊「競爭對手的威脅」優先權,背後「鄉民邏輯」講白話點就是「6700E 先在雲端原生市場擋住 128 核 Zen 4c 的 EPYC 9704(Bergamo),6900P 在標準伺服器超越 128 核 Zen 5 的 Turin,接著 6900E 壓倒 192 核 Zen 5c 的 Turin Dense,6700P 收割較低階的市場,SoC 做掉 64 核 Zen 4c 的 Siena,最後 18A 製程大發神威,驚世駭俗核心數的 Xeon 6 Clearwater Forest 一舉拉開差距,神功大成的 Xeon 7 Diamond Rapids 奪回絕對優勢」,但如意算盤可能打得如此響亮嗎?

此外,Xeon 6 SoC 含多種加速器、製程相對先進的 I/O 區塊,日後也很可能另做他用,例與個人電腦的計算區塊「送作堆」,讓英特爾迅速變出更有競爭力的「類個人電腦」伺服器處理器,搶救時下倍受 EPYC 4004 威脅的 Xeon E。諸如此類可能性,無不是英特爾給世人的期待感。

▲ 英特爾 Xeon 6 同時使用「兩種伺服器 CPU 核心」與「兩種處理器腳位」端出四種組態,加上兩種 BGA 封裝 Xeon 6 SoC,試圖夾殺 AMD(外加 Ampere 與雲端巨頭自研晶片),姑且不論能奪回多少市占率和營收,Chiplet「堆積木」籌碼還不夠多的當下,勢必付出遠比 AMD 更高的成本與代價,英特爾還有漫漫長路要走。

不過對近來負面消息蜂擁而至的英特爾,鞏固資料中心伺服器 CPU 領導地位,只是「基本中的基本」,從先進製程追趕台積電、試圖分割製造事業、搶灘高階運算 GPU、完整 oneAPI 軟體生態、一路持之以恆個人電腦市場推動 Royal Core 系列處理器等,林林總總,族繁不及備載,Pat Gelsinger 眼前的挑戰,遠比 20 年前經歷的更艱困不知多少倍。

當他 2026 年 2 月五年任期屆滿(若英特爾維持 65 歲就退休的內規),那時英特爾和整個業界究竟是何等光景,這間昔日半導體巨人振衰起蔽還是向下沉淪,讓人想都不敢想。唯一可確定的是,今後不論是好是壞,英特爾依然難逃身為眾人嘻笑怒罵的箭靶,即使多數指控平心而論並不公平,更嚴重缺乏業界生態現實的了解。局外人或許只覺好笑,但當事人可都笑不出來。

什麼,聽說英特爾搶 Sony PlayStation 6 處理器訂單敗給 AMD?算了吧,這很重要嗎?

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!