請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Hot Chips 2024》邊緣運算與電信應用迎擊 AMD 並點燃大反擊狼煙:英特爾 Xeon 6 SoC

科技新報

更新於 2024年09月19日16:02 • 發布於 2024年09月23日07:50

受到人工智慧狂潮的衝擊,2024 年處理器業界年度盛會 Hot Chips 可謂「AI Everywhere」,幾乎所有議程都繞著 AI 轉,只有少數聚焦伺服器與個人電腦 CPU 的「不合群分子」,但在「人工智慧伺服器」和「AI PC」成隨處可見標語的世道,請別忘了,就算有 GPU、NPU 和各式各樣 AI 加速器,伺服器和個人電腦依舊需要 CPU 擔任整台電腦的「大腦」。

論伺服器 CPU,英特爾本屆 Hot Chips 揭露新「多晶片封裝系統單晶片」Xeon 6 SoC(代號 Granite Rapids-D),雖然說到底,也僅為現有產品的延伸產物,但也值得一窺奧妙之處。更重要的是:被 AMD 壓著打多年,英特爾終於用 Xeon 6 還手反擊,更重複利用現有「積木」(小晶片Chiplet)踏出看似毫不起眼卻極度重要的一大步。

▲ Xeon 6 SoC 出世象徵英特爾最新世代 Xeon 處理器涵蓋邊緣到雲端應用,並英特爾也踏出像 AMD「拼湊現有積木」的第一步。

目標電信業與物聯網邊緣運算的新世代 Xeon D:Xeon 6 SoC

以既有 Xeon 核心為基礎,針對嚴苛環境的邊緣運算應用,最惡劣條件下提供可信賴的可靠性,英特爾 2015 年首度推出以 BGA 封裝焊死至主板的 Xeon D-1500 系列處理器(代號 Broadwell-DE),也是其首款伺服器級系統單晶片(SoC,System on Chip),同時整合系統晶片組、記憶體控制器、I/O 與乙太網路界面,後來依序發展成 D-2100(Skylake-DE)與 D-1700 / D-2700(Ice Lake-DE),並陸續導入各式各樣「加速器」──都是 AMD 沒有的武器。

▲ Xeon D 是如假包換的高效能伺服器「系統單晶片」,雖然從現在開始也要變成「多餡水餃」了。

Xeon D 訴求在「比入門級 Xeon 更優每瓦效能和比 Atom 更強的絕對性能,比中高階 Xeon 多更低功耗和更高密度」,藉卓越單核心效能,與新興 Arm 伺服器解決方案競爭,尤其阻擋後者從網路儲存伺服器這個「破口」滲透市場,不過隨著 Arm 伺服器市場威脅早轉移至雲端資料中心,英特爾也就不再積極推陳出新。

也因此,本次 Xeon 6 SoC(Granite Rapids-D)等於跳過兩個 Xeon 世代(第四代 Sapphire Rapids,第五代 Emerald Rapids),以先進 2.5D 多晶片封裝技術 EMIB,從現有「Chiplet 積木」組合而成,對英特爾伺服器處理器不啻是重大里程碑,總算能勉強看到 AMD EPYC 家族的車尾燈,並可以電信業與物聯網邊緣運算對抗 EPYC 8004 與內建乙太網路的嵌入式 Ryzen。

▲ 既然英特爾也用「包水餃」製造 Xeon 6,當然也可沿用現成「積木」去「拼裝」出符合其他應用的產品,英特爾 Xeon 6 家族初步實現 Chiplet 共通性,堪稱英特爾的一大步,即便距離靈活多變的 AMD 仍有大段差距。

▲ Xeon 6 SoC 規格重點都在這張簡報上了,看在似曾相識風格分上,只能說蘋果產品發表會對整個業界影響還真不小。

英特爾宣稱 Xeon 6 SoC 規格是基於「全球超過九萬個邊緣應用部署案例,累積的豐富知識與經驗」而擬定,旨在提高邊緣和網路負載的運算效能與能源效率,亮點大致如下。

Xeon 6 SoC(原稱 Granite Rapids-D)整體架構:

  • 整合一至兩個計算區塊(Compute Chiplet)與一個 I/O 區塊(I/O Chiplet)。

  • 兩種 BGA 封裝尺寸分別對應四通道(一個計算區塊)與八通道(兩個計算區塊)。

  • 支援英特爾 Tiber Edge Platform,讓使用者「在標準硬體實現雲端般簡便的組建、部署、執行、管理、調整邊緣和 AI 解決方案」。

計算區塊:

Intel 3 製程(改良型 7 奈米)。

  • 推估單一晶粒最多 44 個核心。

  • 最大核心數不明,英特爾展示 42 核心版。

沿用 Xeon 6P「大核」(P-Core)Redwood Cove。

  • AMX(Advanced Matrix Extensions)矩陣運算加速器:如第四代和第五代 Xeon-SP,每個核心均有 AMX,既有 INT8與BF16 之外,Xeon 6 追加 FP16 格式。借助於更充沛的記憶體頻寬、更大的快取記憶體容量、支援 FP16 的 AMX 與可同時運行更多的記憶體存取需求,AI 與其他類型工作負載混合情況,可達成第四代 Xeon-SP 兩三倍效能,更遑論「海放」連 AMX 都沒有的舊 Xeon D。

  • 存在已久的 SGX(Software Guard Extensions)與第四代 Xeon-SP 的 TDX(Trust Domain Extension):同為強化應用程式與虛擬機隔離性的機密運算技術(Confidential Computing),但個人電腦端,英特爾會逐步放棄 SGX,自 11 代 Core 處理器開始取消,英特爾規劃以全面性記憶體加密機制取代。

單一計算區塊整合四通道記憶體控制器。

  • 支援 DDR5-5600 記憶體與倍增理論頻寬的 MCR-DIMM。

I/O 區塊:

Intel 4 製程(7 奈米)。

  • 有別於標準款 Xeon 6 I/O 區塊(Intel 7 製程,10 奈米)的新設計。

PCIe 與 CXL:

  • 有資源控管機能(RDT,Resource Director Technology),追蹤和控制共用的 PCIe / CXL 資源,有助實做更佳服務品質(QoS),對部署大量虛擬機器環境更是重中之重。

  • 32 個 PCIe 5.0 通道。

  • 16 個 PCIe 4.0 通道。

  • 16 條 CXL 2.0 通道。

八個乙太網路連接埠(25G / 10G / 1G / 100M)。

  • 可轉換成四埠 50G 或兩埠 100G。

包括多種專用加速器,原本也出現在過去 Xeon:

  • QAT(Quick Assist Technology):密碼學與壓縮處理加速技術,加速對稱/非對稱加密與無失真壓縮,讓 CPU 資源釋放至其他工作,並可加速 IPsec VPN,Xeon 6 SoC 更延展至多媒體影音格式的轉碼(Transcoding),增強即時 OTT、VOD 和廣播媒體的視訊轉碼和分析。

  • vRAN Boost:編碼與解碼 4G 的渦輪碼(Turbo Code)與 5G 的低密度奇偶校驗碼(LDPC Code),以加速 4G / 5G 電信網路實體層的前導錯誤校正(FEC,Forward Error Corection)。

  • DLB(Dynamic Load Balancer):動態負載平衡,讓多核心 CPU 高效率的分散網路處理作業,並對應 NetSec 加速器參考設計平台,讓安全裝置卸載處理器運算密集的工作負載。

  • DSA(Data Streaming Accelerator):資料串流工作,協助將記憶體的資料傳輸到各個 CPU 核心,CPU 無需持續搬移記憶體資料。

  • 遺珠之憾:IAA(In-Memory Analytics Accelerator),為提升記憶體內資料查找並加速解壓縮,對資料庫特別有用,但並非 Xeon 6 SoC 目標應用,付之闕如也無傷大雅。

▲ Xeon 6 SoC 計算區塊沿用 Xeon 6P,I/O 區塊則採 Intel 4(7 奈米)製程新設計。

▲ 分而治之的多晶片封裝,兼具高頻寬與低延遲的晶片對晶片連結(以及良好的快取記憶體一致性協定)也不可少,否則邏輯上共用的快取記憶體和系統記憶體將是效能惡夢。

▲ 兩種 BGA 封裝尺寸對應不同的記憶體通道數量,較緊緻的四通道封裝對研製高密度邊緣運算系統相當重要。

▲ 考量到泛用性,Xeon 6 SoC 選用擁有 AVX-512 指令集的大核 P-Core 並不讓人感到意外。

▲ AMX 是英特爾自第四代 Xeon-SP 問世的神兵利器,無論人工智慧訓練和推論都能發揮威力,但似乎少人留意。

▲ 從 SGX 建立稱為隔離區的可信賴執行環境(TEE)可保護處理器與記憶體主動使用的資料,到 TDX 藉由硬體級隔離和虛擬機器(VM)以策略性的方式協助縮小攻擊面,並提升資料中心或雲端中資料與應用程式的防護力和機密性,都是英特爾相對於競爭對手較為完整的機密運算方案,而微軟 Azure 的機密運算服務,更是以 TDX 為基礎打造。

▲ 技術起源於 Xeon E5-2600v3(Haswell-EP)、成形於 Xeon E5-2600v4(Broadwell-EP)的 RDT,初衷是虛擬化環境,監控並配置快取記憶體和記憶體頻寬使用狀況,歷經多年發展,逐步延伸至 PCIe / CXL 等 I/O 介面。

▲ 有別於使用 Intel 7 製造的 Xeon 6 標準款,Xeon 6 SoC 的 I/O 是採 Intel 4 新規格,整合大量邊緣運算用到的加速器。

▲ 專職資料加解壓縮及加解密的 QAT 早期以專用加速卡形式存在,第三代 Xeon-SP(Ice Lake-SP)整合至系統晶片組,第四代(Sapphire Rapids)與第五代(Emerald Rapids)置入 CPU,Xeon 6 再移至 I/O 區塊,但總之都是整個處理器的一部分。

▲ 英特爾 QAT 在 Xeon 6 SoC 的最大亮點:可做多媒體格式轉碼,更利於 5G MEC(Multi-access Edge Computing)本地端高解析度影像處理和資料發送,減輕核心網路和資料中心伺服器的負擔,降低整體延遲,提供更佳服務體驗。

▲ 當 QAT 可擔綱媒體加速器,即可在 Xeon 6 SoC 內完成「一條龍」AI 視覺推論(結合 AMX)與視訊轉碼。

內憂外患的英特爾點燃伺服器戰場再次反擊 AMD 的狼煙

▲ 自從蘇姿丰(Lisa Su)2014 年 10 月接掌 AMD 執行長,耗費十年光陰,從發展 Infinity Fabric 統合 AMD 長期多頭馬車的 IP 區塊連結與控制方式,到一步一腳印貫徹執行 Chiplet 策略,逐步打造出 AMD 史上空前強大且無所不備的伺服器產品線,並藉由壓倒性 CPU 的核心數量優勢,重創英特爾資料中心營收和獲利,隨著 Xeon 6 家族登場,英特爾總算手握足以正面迎擊 AMD EPYC 的武器庫。

但爬文至此,各位看著琳瑯滿目的技術細節眼花撩亂之際,也別忘了英特爾此時此刻發表 Xeon 6 SoC 的意義何在:伺服器戰線站穩腳跟,不僅技術規格和產品線完整度追上 AMD,並極可能享有效能和功能的明顯優勢,最起碼,同為 128 核和 12 通道 DDR5 MCR-DIMM,Xeon 6900P 實在沒有理由打不贏 128 核 Zen 5 版 EPYC──這效能王冠英特爾已丟失好幾年了,Xeon 6 終究有了奪回契機。英特爾更在中秋節宣布替 AWS 客製化專用特規 Xeon 6 處理器,並以最先進 Intel 18A 製程代工自研 AI 晶片,不啻是重大戰略勝利,假如一切都很順利。

▲ 英特爾發表 Xeon 6 家族的順序也頗耐人尋味:先是 144 小核 6700E、128 大核 6900P、288 小核 6900E,最後才是 86 大核 6700P、更低階大核型號與 Xeon 6 SoC,多少可看出英特爾迎擊「競爭對手的威脅」優先權,背後「鄉民邏輯」講白話點就是「6700E 先在雲端原生市場擋住 128 核 Zen 4c 的 EPYC 9704(Bergamo),6900P 在標準伺服器超越 128 核 Zen 5 的 Turin,接著 6900E 壓倒 192 核 Zen 5c 的 Turin Dense,6700P 收割較低階的市場,SoC 做掉 64 核 Zen 4c 的 Siena,最後 18A 製程大發神威,驚世駭俗核心數的 Xeon 6 Clearwater Forest 一舉拉開差距,神功大成的 Xeon 7 Diamond Rapids 奪回絕對優勢」,但如意算盤可能打得如此響亮嗎?

此外,Xeon 6 SoC 含多種加速器、製程相對先進的 I/O 區塊,日後也很可能另做他用,例與個人電腦的計算區塊「送作堆」,讓英特爾迅速變出更有競爭力的「類個人電腦」伺服器處理器,搶救時下倍受 EPYC 4004 威脅的 Xeon E。諸如此類可能性,無不是英特爾給世人的期待感。

▲ 英特爾 Xeon 6 同時使用「兩種伺服器 CPU 核心」與「兩種處理器腳位」端出四種組態,加上兩種 BGA 封裝 Xeon 6 SoC,試圖夾殺 AMD(外加 Ampere 與雲端巨頭自研晶片),姑且不論能奪回多少市占率和營收,Chiplet「堆積木」籌碼還不夠多的當下,勢必付出遠比 AMD 更高的成本與代價,英特爾還有漫漫長路要走。

不過對近來負面消息蜂擁而至的英特爾,鞏固資料中心伺服器 CPU 領導地位,只是「基本中的基本」,從先進製程追趕台積電、試圖分割製造事業、搶灘高階運算 GPU、完整 oneAPI 軟體生態、一路持之以恆個人電腦市場推動 Royal Core 系列處理器等,林林總總,族繁不及備載,Pat Gelsinger 眼前的挑戰,遠比 20 年前經歷的更艱困不知多少倍。

當他 2026 年 2 月五年任期屆滿(若英特爾維持 65 歲就退休的內規),那時英特爾和整個業界究竟是何等光景,這間昔日半導體巨人振衰起蔽還是向下沉淪,讓人想都不敢想。唯一可確定的是,今後不論是好是壞,英特爾依然難逃身為眾人嘻笑怒罵的箭靶,即使多數指控平心而論並不公平,更嚴重缺乏業界生態現實的了解。局外人或許只覺好笑,但當事人可都笑不出來。

什麼,聽說英特爾搶 Sony PlayStation 6 處理器訂單敗給 AMD?算了吧,這很重要嗎?

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

路透:輝達擬提高H200晶片產量 因應中國強勁需求

路透社
02

英特爾已測試涉中晶片設備 外界憂可能用於先進製程

路透社
03

迪士尼10億美元注資OpenAI Sora可使用經典角色

路透社
04

美參議員華倫籲黃仁勳出席聽證 說明川普售中國晶片決策

路透社
05

微軟強化 Windows 11,FSE、ASD 助力遊戲體驗升級

科技新報
06

3大電信影音收視榜揭曉 韓綜台劇動漫3大主力

卡優新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...