請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

回顧英特爾伺服器的「原子小金剛」:E-Core

科技新報

更新於 01月19日10:56 • 發布於 01月22日08:30

長期關心智慧手機市場的讀者,對 Arm 指令集相容處理器的「大核配小核」都不會太陌生。以英特爾 x86 處理器為主的個人電腦,首次大規模導入類似「混核架構」者,是第 12 代 Core 處理器 Alder Lake。

它是少數「大核」P-Core(Performance Core,Golden Cove 微架構)藉高時脈和超執行緒(HyperThreading)負責高負載任務,達成最低運算延遲(Latency),而多數「小核」E-Core(Efficient Core,Gracemont 微架構)則透過大量核心數,實現執行輕負載工作時的多執行緒輸出量(Throughput)。

▲ 講簡單點,所謂「大核」專注縮短延遲的單執行緒效能,「小核」則聚焦增加輸出量的多執行緒效率。

其實英特爾尚未創造「E-Core」這名詞前,早在 2020 年第二季上市的 Lakefield 處理器(Core i5-L16G7、Core i3-L13G4)就採取「一大四小」配置。英特爾概念也與 Arm 處理器有明顯差異,相較僅追求省電的後者,前者「小核」可一點都不小,以前述 Gracemont 微架構 E-Core 來說,四核 Gracemont 相對雙核 Skylake,相同性能時,功耗降低 80%,相同功耗時,性能高 80%。

▲ 英特爾「小核」效能可一點都不含糊,已具備挑戰昔日「大核」的雄厚實力,特別是多核心執行多執行緒應用程式的場景。

也因此,源自 Atom 體系、後來正名 E-Core 的「小核」,自 2012 年至今,一直在伺服器市場占有一席之地,英特爾 2023 年發表的第六代「雲端原生」(Cloud Native)Xeon-SP 處理器 Sierra Forest,更陸續「堆出」驚世駭俗的 144 個和 288 個 E-Core 版,完全顛覆世人對 Intel Inside 的「原子小金剛」最初刻板印象:僅能勉強承擔低效能、低功耗應用,如小桌機、小筆電、平板、嵌入式系統、機上盒、纜線數據機、家用網路伺服器、先後以慘敗收場的智慧手機與高效能運算。

▲ 猛拚核心數量的「雲端原生處理器」戰場,英特爾預定今年上半年推出第六代 Xeon-SP Sierra Forest,一口氣將核心數推進到 288 個 E-Core。

嶄新的 2024 年,英特爾將以 Sierra Forest 為首,跟著 AMD、Ampere 和眾多自研晶片雲端巨頭,加入這場「超多核心雲端原生伺服器處理器」大革命,這也是英特爾首次將 E-Core 引進高 CPU 核心數的伺服器晶片。許多人聽到 Atom 和 E-Core,很可能立即覺得「這東西應該很弱」,但如今情況卻非如此。

考量到英特爾推出 Atom S1200 系列超過十年,且英特爾宣傳往往相對「低調」,甚至不乏莫名其妙突然上市的案例,或因應特定客戶需求而眾人不知不覺時冒出特殊型號,就簡單快速了解這「原子小金剛伺服器處理器」演變,與簡介英特爾 Xeon D 產品線,並同場加映雲端巨頭自研晶片近況,以及「x86 雙雄」即將面臨的嚴苛挑戰。

Atom 伺服器從 32 到 10 奈米的十年歷程

一言以蔽之,英特爾這票「原子小金剛伺服器處理器」定位,在新式網路基礎架構、安全加速器與儲存裝置,讓企業「締造最佳化的效能與成本平衡」,更白話點就是「使用傳統 Xeon 處理器,完全是殺雞用牛刀」。

▲ 英特爾將 Atom 投入伺服器市場,是為了滿足「穠纖合度」的市場需要:連網能力要強,但無需太好運算效能,成本和功耗也不能太高。

Saltwell 微架構(32 奈米):最早 Atom 核心的製程微縮。

規格重點:補回消費型 Atom 缺少的功能,如 VT-x 虛擬化與 ECC 記憶體。

  • Atom S1200 系列 Centerton(2012 年 12 月):雙核心/四執行緒,最高時脈 2GHz,最高功耗 8.5W。

  • Atom S12x9 系列 Briarwood(2013 年第二季):雙核心/四執行緒,最高時脈 2GHz,最高功耗 14.1W,主要多出更多的 PCIe 2.0。

Silvermont 微架構(22 奈米):放棄同時多執行緒,邁向非循序指令執行。

規格重點:取消 HyperThreading,引進 Atom 家族的第一代非循序指令執行(Out-Of-Order Execution),這也成為後繼產品的共同特色。另外,也開始內建 USB、SATA、UART 和 GbE 網路控制器,成為貨真價實的伺服器「系統單晶片」(SoC,System-on-Chip)。

  • Atom C2x30 / C2x50 系列 Avoton(2013 年 9 月):最多 8 核心,最高時脈 2.6GHz,最高功耗 20W。

  • Atom C2xx8 / C2x16 系列 Rangeley(2013 年 9 月至 2017 年 7 月):最多 8 核心,最高時脈 2.4 GHz,最高功耗 20W。因產品定位是「通訊處理器」,所以多數型號支援 Quick Assist(QAT) 密碼學與壓縮處理加速技術,加速對稱/非對稱加密與無失真壓縮,讓 CPU 資源得以釋出用於其他工作,並可加快 IPsec VPN 的速度。

Goldmont 微架構(14 奈米):增加 50% 指令解碼器寬度。

規格重點:Atom 家族的第二代非循序指令執行(Out-Of-Order Execution),開始內建 2.5GbE 和 10GbE 網路控制器,並支援 VT-d I/O 虛擬化技術。

  • Atom C3000 系列 Denverton(2017 年 1 月至 2020 年 5 月):最多 16 核心,最高時脈 2.4GHz,最高功耗 31W。這系列大量用於 5G 微型基地台。

Tremont 微架構(10 奈米):倍增的指令解碼器寬度,帶來 Atom 史上最巨幅的效能增長。

規格重點:Atom 家族的第三代非循序指令執行(Out-Of-Order Execution),開始內建 100GbE 網路控制器,並支援動態負載平衡(DLB,Dynamic Load Balancer)技術,讓多核心 CPU 能高效率的分散網路處理作業,並對應 NetSec 加速器參考設計平台,讓安全裝置卸載處理器運算密集的工作負載。

  • Atom P5000系列 Snow Ridge(2020 年 2 月至 2022 年 6 月):最多 24 核心,最高時脈 2.2GHz,最高功耗 83W。P####B 型號針對 5G / LTE 基地台收發站,並因應嚴苛環境所需要的寬溫(-40°C~85°C)。QAT 是第三代版本。

  • Atom C5000 系列 Parker Ridge(2022 年 6 月):最多 8 核心,最高時脈 2.4GHz,最高功耗 50W,這系列就完全為 5G / LTE 基地台收發站而生。QAT 是第二代版本。

至於 mont 結尾第四代的 Gracemont(Intel 7,10 奈米)並未用在伺服器系統單晶片,僅限第 12 代 Core 處理器 Alder Lake、第 13 代 Raptor Lake 以及涵蓋低階桌機與工控的 Alder Lake-N。第五代 Crestmont(Intel 4,7 奈米)則是 2023 年 12 月 14 日登場的 Core Ultra Meteor Lake 的 E-Core 和前面所提六代「雲端原生」Xeon-SP Sierra Forest(Intel 3,強化版 7 奈米)那數量「破表」的驚人核心數。

填補應用缺口並阻擋 Arm 滲入的 Xeon D

但「標準」的 Xeon 處理器和伺服器版 Atom 之間,有個名為 Xeon D 的產品線,看起來跟 Atom 很像,同樣是限定單處理器、有很多的核心數,整合 PCIe、USB、SATA、網路界面控制器,可安裝高容量記憶體且有 ECC 保護,但 CPU 卻基於和一般 Xeon 相同的核心,快取記憶體容量也不在同檔次。絲毫不讓人感到意外,Xeon D 價格比 Atom 貴得多。

▲ Xeon D 是如假包換的高效能伺服器「系統單晶片」。

Xeon D 問世之際,主要作用在「提供比 Xeon E3 更優的每瓦性能和比 Atom 更強的絕對性能,比 Xeon E5 多出更低的功耗和更高的密度」。除此之外,英特爾沒有明講的是,Xeon D 旨在透過卓越的單核心效能,與新興 Arm 伺服器解決方案競爭,尤其阻擋後者從網路儲存伺服器這個「缺口」滲透市場。不過隨著 Arm 伺服器市場威脅早不在這裡,英特爾也沒積極推陳出新,繼續「維持現狀」。

Xeon D 有以下系列:

Broadwell 微架構(14 奈米)

  • Xeon D-1500 系列 Broadwell-DE(2015 年第一季至 2017 第三季):最多16 核心/32 執行緒,最高時脈 2.7GHz,最高功耗 65W,最大記憶體容量 128GB。

Skylake 微架構(14 奈米)

  • Xeon D-2100 系列 Skylake-DE(2018 年第一季):最多 18核心/36 執行緒,最高時脈 3GHz,最高功耗 110W,最大記憶體容量 512GB。

Broadwell 微架構(Hewitt Lake,14 奈米)

  • Xeon D-1600 系列 Hewitt Lake(2010 年第二季):最多 8 核心/16 執行緒,最高時脈 3.2GHz,最高功耗 65W,最大記憶體容量 128GB。

Ice Lake 微架構(10 奈米):值得注意的是,這有支援 AVX-512 指令集。

  • Xeon D-1700 / D-2700 系列 Ice Lake-DE(2022 年第一季):最多 20 核心/40 執行緒,最高時脈 3.5GHz,最高功耗 129W,最大記憶體容量 1TB。D-1700 的 QAT 是第二代,D-2700 則是第三代。

  • Xeon D-1800 / D-2800 系列 Ice Lake-DE(2023 年 12 月 14 日):現有型號小幅改款,相同功耗範圍有較高核心數量,D-2800 新增 22 核心型號,D-1800 增加兩個 100GbE 網路界面。

雲端巨頭自研晶片讓英特爾不得不拚命堆核心

AMD 2023 年上半年推出 128 核 EPYC 97x4 系列(Zen 4 世代,代號 Bergamo,台積電 5 奈米)就是令人印象極度深刻的產品,整體效能是 128 核心 Arm 競爭對手約 3 倍,功耗卻僅 1.5 倍,意味「兩倍能效比」,且 256 執行緒滿載時,仍可保持時脈穩定,這對維持雲端服務品質大有裨益。英特爾當然有足夠理由跟進 AMD 並設法超越,但很可能「x86 雙雄」的最大對手不是彼此。

2023 年 11 月 16 日微軟 Azure Ignite 大會,微軟一口氣公布兩個自行設計、採台積電 5 奈米製程的晶片:專用執行生成式 AI(如 OpenAI 大型語言模型)的 Azure Maia 100 AI 加速器(又稱 Athena 或 M100,1050 億電晶體),以及執行 Azure 雲端通用運算作業的 Arm 架構處理器 Azure Cobalt 100(128 個 Arm Neoverse N2 核心,Cortex-710 的伺服器特化版),比 Azure「其他 Arm 架構晶片」少了 40% 耗電量。

▲ 相繼 AWS、Google 和 Meta 之後,微軟也成為自研處理器的雲端巨頭,採台積電 5 奈米製程的 Azure Cobalt 100 處理器,內建 128 個 Arm Neoverse N2 核心,並直接使用 Arm Neoverse CSS N2 平台打造,由兩個 64 核心模組構成,將用於 Azure 雲端的通用運算作業。微軟也一併公布 Azure Maia 100 AI 加速器,執行 Azure 最大 AI 負載與 OpenAI 大型語言模型。

微軟強調這些晶片是「全自製願景:從軟體、晶片、伺服器、機架到冷卻系統」的最後一項元素,預定明年初部署於微軟資料中心,用於執行 Copilot(Bing Chat)AI 和 Azure OpenAI Service,身為 Cobalt 系列首款的 Cobalt 100,已用於 Teams 和 Azure SQL。

此外,微軟也同時宣布推出 Azure Boost,類似 AWS(Amazon Web Services)的 Nitro,可將許多虛擬機器管理程式、網路與儲存功能,從主機伺服器卸載至外購 FPGA 與微軟內部設計(源自於 2023 年初併購的 Fungible)的 DPU,減輕 CPU 核心負擔。

無獨有偶,自從 2015 年收購 Annapurna Labs 新創後,始終致力開發自家晶片,並陸續設計一系列 Nitro(工作卸載)、Graviton(通用計算)、Inferentia(人工智慧推論)和 Trainium(人工智慧訓練)的 AWS,接著 2023 年 11 月 28 日發表第二代 AI 訓練處理器 Trainium2 與萬眾期待的 Graviton4,後者是短短五年內推出第四代晶片,使用台積電 4 奈米製程,96 個 Arm Neoverse V 2 核心(Cortex-X3 的伺服器特化版),不僅有總容量 192MB 的第二階快取記憶體,12 通道 DDR5-5600 記憶體更提供多達 536.7GB/s 峰值理論頻寬,比上代 Graviton3 高出足足 75%。

▲ 歷經多年自研晶片歷史,AWS 2023 年底也發表第四代 Arm 處理器 Graviton4 與第二代人工智慧訓練處理器 Trainium2,前者並且是塞入 96 個 Arm Neoverse V2 核心(nVidia Grace CPU 是 72 個)、192MB 容量第二階快取記憶體、與 12 通道 DDR5-5600 記憶體控制器的怪獸。

與 Graviton3 相比,Graviton4 平均運算效能提高 30%,資料庫應用程式增加 40%,Java 應用程式提升 45%,將先於記憶體最佳化的 Amazon EC2 R8g 執行個體登場,特別利於改善高階資料庫和分析的效能。更重要的是,AWS 表示部署超過「200 萬顆」Graviton 系列處理器,真是歷史性的一刻。

微軟 Cobalt 100 乍看很厲害,其實也落後技術規格相近的阿里巴巴「倚天 710」(台積電 5 奈米,128 個 Arm Neoverse N2 核心,8 通道 DDR5 記憶體,96 個 PCIe 5.0 通道)超過兩年。

▲ 不限美國,中國雲端巨頭也沒有閒著,阿里巴巴更早就發表倚天 710,比微軟更早實現 128 核心 Neoverse N2。

總而言之,自力研發為自己量身訂做的自家晶片,這些年蔚然成為雲端巨頭共識,這對 20 世紀末期至今,靠雲端資料中心崛起賺取大量利潤的 x86 雙雄(或總算 Arm 伺服器站穩腳步的 Ampere),不啻是天大的壞消息。英特爾狂堆 E-Core 核心數打「核戰」,也是不得已的選擇。

英特爾「小核」的諸多挑戰

回過頭來,英特爾揮灑「小核」E-Core、帶頭狂衝核心數量是一回事,但考慮到某些技術因素和競爭對手,英特爾依然有以下困難:

  • x86 處理器研發一向曠日費時,Arm 不但端出 Neoverse 平台,還變出 Neoverse CSS 這種驗證過模組化 IP 區塊,擴大 x86 在 Time To Market 的劣勢,英特爾已「提案」簡化後純 64 位元 x86 指令集,但看在 x86 處理器微架構清一色是伺服器和個人電腦一起共用的份上,否則難以攤平開發成本,再考量軟體廠商的態度,英特爾勢必要折騰好段時日。

  • 第 12 代 Core 處理器的「混核」充分暴露出 P-Core 和 E-Core 可相容指令集並不完全一致的宿疾,還把 AVX-512 優勢平白拱手讓給 AMD。英特爾先前發表「AVX10」這繞遠路讓 E-Core 未來可補回 AVX-512 的計畫,但按照產品時程表,2026 年前都看不到任何引進產品的可能性。AMD 幾乎篤定可靠 AVX-512 獨領風騷好一陣子,況且 AVX-512 對 5G 基地台是很重要的存在,像 5G 低密度奇偶檢查碼(LDPC)的軟體解碼就是很好的例子。英特爾自廢武功的結果,就是送給 AMD EPYC 8002 Siena 一堆 5G 微型基地台潛在商機。

  • CPU 核心數激增,記憶體的頻寬和延遲也要跟著上來。Sierra Forest 飆上 288 核,但似乎還沒看到英特爾在增進記憶體子系統的效能有哪些改進措施,現在看來是連 MCR(Multiplexer Combined Ranks)記憶體模組都沒有,也沒看到 HBM 之類的「外掛」,屆時記憶體會不會變成效能瓶頸,或許雲端巨頭很快就會知道答案了。

▲ SK 海力士先發表的 MCR(Multiplexer Combined Ranks)記憶體模組,藉從個別記憶體秩(Rank)調來的兩筆 64Bytes 資料,先集中到緩衝區,接著再一次性傳送 128Bytes,可達成接近倍增的記憶體資料傳送量。Granite Rapids 是首先支援此技術的英特爾處理器,但「兄弟」Sierra Forest 卻看似無福消受。

只不過,無論最終 Sierra Forest 表現究竟如何,假若回到「RISC(精簡指令集電腦)vs. CISC(複雜指令集電腦)」之爭的古老年代,的確難想像 x86 指令集相容處理器可帶頭「領跑」核心數競賽,也許除了 Time To Market,還在過度強調「指令集架構的良窳」早就沒有任何意義,最起碼現在確實如此。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0