LINE TODAY

長期關心智慧手機市場的讀者，對 Arm 指令集相容處理器的「大核配小核」都不會太陌生。以英特爾 x86 處理器為主的個人電腦，首次大規模導入類似「混核架構」者，是第 12 代 Core 處理器 Alder Lake。

它是少數「大核」P-Core（Performance Core，Golden Cove 微架構）藉高時脈和超執行緒（HyperThreading）負責高負載任務，達成最低運算延遲（Latency），而多數「小核」E-Core（Efficient Core，Gracemont 微架構）則透過大量核心數，實現執行輕負載工作時的多執行緒輸出量（Throughput）。

▲ 講簡單點，所謂「大核」專注縮短延遲的單執行緒效能，「小核」則聚焦增加輸出量的多執行緒效率。

其實英特爾尚未創造「E-Core」這名詞前，早在 2020 年第二季上市的 Lakefield 處理器（Core i5-L16G7、Core i3-L13G4）就採取「一大四小」配置。英特爾概念也與 Arm 處理器有明顯差異，相較僅追求省電的後者，前者「小核」可一點都不小，以前述 Gracemont 微架構 E-Core 來說，四核 Gracemont 相對雙核 Skylake，相同性能時，功耗降低 80%，相同功耗時，性能高 80%。

▲ 英特爾「小核」效能可一點都不含糊，已具備挑戰昔日「大核」的雄厚實力，特別是多核心執行多執行緒應用程式的場景。

也因此，源自 Atom 體系、後來正名 E-Core 的「小核」，自 2012 年至今，一直在伺服器市場占有一席之地，英特爾 2023 年發表的第六代「雲端原生」（Cloud Native）Xeon-SP 處理器 Sierra Forest，更陸續「堆出」驚世駭俗的 144 個和 288 個 E-Core 版，完全顛覆世人對 Intel Inside 的「原子小金剛」最初刻板印象：僅能勉強承擔低效能、低功耗應用，如小桌機、小筆電、平板、嵌入式系統、機上盒、纜線數據機、家用網路伺服器、先後以慘敗收場的智慧手機與高效能運算。

▲ 猛拚核心數量的「雲端原生處理器」戰場，英特爾預定今年上半年推出第六代 Xeon-SP Sierra Forest，一口氣將核心數推進到 288 個 E-Core。

嶄新的 2024 年，英特爾將以 Sierra Forest 為首，跟著 AMD、Ampere 和眾多自研晶片雲端巨頭，加入這場「超多核心雲端原生伺服器處理器」大革命，這也是英特爾首次將 E-Core 引進高 CPU 核心數的伺服器晶片。許多人聽到 Atom 和 E-Core，很可能立即覺得「這東西應該很弱」，但如今情況卻非如此。

考量到英特爾推出 Atom S1200 系列超過十年，且英特爾宣傳往往相對「低調」，甚至不乏莫名其妙突然上市的案例，或因應特定客戶需求而眾人不知不覺時冒出特殊型號，就簡單快速了解這「原子小金剛伺服器處理器」演變，與簡介英特爾 Xeon D 產品線，並同場加映雲端巨頭自研晶片近況，以及「x86 雙雄」即將面臨的嚴苛挑戰。

Atom 伺服器從 32 到 10 奈米的十年歷程

一言以蔽之，英特爾這票「原子小金剛伺服器處理器」定位，在新式網路基礎架構、安全加速器與儲存裝置，讓企業「締造最佳化的效能與成本平衡」，更白話點就是「使用傳統 Xeon 處理器，完全是殺雞用牛刀」。

▲ 英特爾將 Atom 投入伺服器市場，是為了滿足「穠纖合度」的市場需要：連網能力要強，但無需太好運算效能，成本和功耗也不能太高。

Saltwell 微架構（32 奈米）：最早 Atom 核心的製程微縮。

規格重點：補回消費型 Atom 缺少的功能，如 VT-x 虛擬化與 ECC 記憶體。

Atom S1200 系列 Centerton（2012 年 12 月）：雙核心／四執行緒，最高時脈 2GHz，最高功耗 8.5W。
Atom S12x9 系列 Briarwood（2013 年第二季）：雙核心／四執行緒，最高時脈 2GHz，最高功耗 14.1W，主要多出更多的 PCIe 2.0。

Silvermont 微架構（22 奈米）：放棄同時多執行緒，邁向非循序指令執行。

規格重點：取消 HyperThreading，引進 Atom 家族的第一代非循序指令執行（Out-Of-Order Execution），這也成為後繼產品的共同特色。另外，也開始內建 USB、SATA、UART 和 GbE 網路控制器，成為貨真價實的伺服器「系統單晶片」（SoC，System-on-Chip）。

Atom C2x30 / C2x50 系列 Avoton（2013 年 9 月）：最多 8 核心，最高時脈 2.6GHz，最高功耗 20W。
Atom C2xx8 / C2x16 系列 Rangeley（2013 年 9 月至 2017 年 7 月）：最多 8 核心，最高時脈 2.4 GHz，最高功耗 20W。因產品定位是「通訊處理器」，所以多數型號支援 Quick Assist（QAT）密碼學與壓縮處理加速技術，加速對稱/非對稱加密與無失真壓縮，讓 CPU 資源得以釋出用於其他工作，並可加快 IPsec VPN 的速度。

Goldmont 微架構（14 奈米）：增加 50% 指令解碼器寬度。

規格重點：Atom 家族的第二代非循序指令執行（Out-Of-Order Execution），開始內建 2.5GbE 和 10GbE 網路控制器，並支援 VT-d I/O 虛擬化技術。

Atom C3000 系列 Denverton（2017 年 1 月至 2020 年 5 月）：最多 16 核心，最高時脈 2.4GHz，最高功耗 31W。這系列大量用於 5G 微型基地台。

Tremont 微架構（10 奈米）：倍增的指令解碼器寬度，帶來 Atom 史上最巨幅的效能增長。

規格重點：Atom 家族的第三代非循序指令執行（Out-Of-Order Execution），開始內建 100GbE 網路控制器，並支援動態負載平衡（DLB，Dynamic Load Balancer）技術，讓多核心 CPU 能高效率的分散網路處理作業，並對應 NetSec 加速器參考設計平台，讓安全裝置卸載處理器運算密集的工作負載。

Atom P5000系列 Snow Ridge（2020 年 2 月至 2022 年 6 月）：最多 24 核心，最高時脈 2.2GHz，最高功耗 83W。P####B 型號針對 5G / LTE 基地台收發站，並因應嚴苛環境所需要的寬溫（-40°C~85°C）。QAT 是第三代版本。
Atom C5000 系列 Parker Ridge（2022 年 6 月）：最多 8 核心，最高時脈 2.4GHz，最高功耗 50W，這系列就完全為 5G / LTE 基地台收發站而生。QAT 是第二代版本。

至於 mont 結尾第四代的 Gracemont（Intel 7，10 奈米）並未用在伺服器系統單晶片，僅限第 12 代 Core 處理器 Alder Lake、第 13 代 Raptor Lake 以及涵蓋低階桌機與工控的 Alder Lake-N。第五代 Crestmont（Intel 4，7 奈米）則是 2023 年 12 月 14 日登場的 Core Ultra Meteor Lake 的 E-Core 和前面所提六代「雲端原生」Xeon-SP Sierra Forest（Intel 3，強化版 7 奈米）那數量「破表」的驚人核心數。

填補應用缺口並阻擋 Arm 滲入的 Xeon D

但「標準」的 Xeon 處理器和伺服器版 Atom 之間，有個名為 Xeon D 的產品線，看起來跟 Atom 很像，同樣是限定單處理器、有很多的核心數，整合 PCIe、USB、SATA、網路界面控制器，可安裝高容量記憶體且有 ECC 保護，但 CPU 卻基於和一般 Xeon 相同的核心，快取記憶體容量也不在同檔次。絲毫不讓人感到意外，Xeon D 價格比 Atom 貴得多。

▲ Xeon D 是如假包換的高效能伺服器「系統單晶片」。

Xeon D 問世之際，主要作用在「提供比 Xeon E3 更優的每瓦性能和比 Atom 更強的絕對性能，比 Xeon E5 多出更低的功耗和更高的密度」。除此之外，英特爾沒有明講的是，Xeon D 旨在透過卓越的單核心效能，與新興 Arm 伺服器解決方案競爭，尤其阻擋後者從網路儲存伺服器這個「缺口」滲透市場。不過隨著 Arm 伺服器市場威脅早不在這裡，英特爾也沒積極推陳出新，繼續「維持現狀」。

Xeon D 有以下系列：

Broadwell 微架構（14 奈米）

Xeon D-1500 系列 Broadwell-DE（2015 年第一季至 2017 第三季）：最多16 核心／32 執行緒，最高時脈 2.7GHz，最高功耗 65W，最大記憶體容量 128GB。

Skylake 微架構（14 奈米）

Xeon D-2100 系列 Skylake-DE（2018 年第一季）：最多 18核心／36 執行緒，最高時脈 3GHz，最高功耗 110W，最大記憶體容量 512GB。

Broadwell 微架構（Hewitt Lake，14 奈米）

Xeon D-1600 系列 Hewitt Lake（2010 年第二季）：最多 8 核心／16 執行緒，最高時脈 3.2GHz，最高功耗 65W，最大記憶體容量 128GB。

Ice Lake 微架構（10 奈米）：值得注意的是，這有支援 AVX-512 指令集。

Xeon D-1700 / D-2700 系列 Ice Lake-DE（2022 年第一季）：最多 20 核心／40 執行緒，最高時脈 3.5GHz，最高功耗 129W，最大記憶體容量 1TB。D-1700 的 QAT 是第二代，D-2700 則是第三代。
Xeon D-1800 / D-2800 系列 Ice Lake-DE（2023 年 12 月 14 日）：現有型號小幅改款，相同功耗範圍有較高核心數量，D-2800 新增 22 核心型號，D-1800 增加兩個 100GbE 網路界面。

雲端巨頭自研晶片讓英特爾不得不拚命堆核心

AMD 2023 年上半年推出 128 核 EPYC 97x4 系列（Zen 4 世代，代號 Bergamo，台積電 5 奈米）就是令人印象極度深刻的產品，整體效能是 128 核心 Arm 競爭對手約 3 倍，功耗卻僅 1.5 倍，意味「兩倍能效比」，且 256 執行緒滿載時，仍可保持時脈穩定，這對維持雲端服務品質大有裨益。英特爾當然有足夠理由跟進 AMD 並設法超越，但很可能「x86 雙雄」的最大對手不是彼此。

2023 年 11 月 16 日微軟 Azure Ignite 大會，微軟一口氣公布兩個自行設計、採台積電 5 奈米製程的晶片：專用執行生成式 AI（如 OpenAI 大型語言模型）的 Azure Maia 100 AI 加速器（又稱 Athena 或 M100，1050 億電晶體），以及執行 Azure 雲端通用運算作業的 Arm 架構處理器 Azure Cobalt 100（128 個 Arm Neoverse N2 核心，Cortex-710 的伺服器特化版），比 Azure「其他 Arm 架構晶片」少了 40% 耗電量。

▲ 相繼 AWS、Google 和 Meta 之後，微軟也成為自研處理器的雲端巨頭，採台積電 5 奈米製程的 Azure Cobalt 100 處理器，內建 128 個 Arm Neoverse N2 核心，並直接使用 Arm Neoverse CSS N2 平台打造，由兩個 64 核心模組構成，將用於 Azure 雲端的通用運算作業。微軟也一併公布 Azure Maia 100 AI 加速器，執行 Azure 最大 AI 負載與 OpenAI 大型語言模型。

微軟強調這些晶片是「全自製願景：從軟體、晶片、伺服器、機架到冷卻系統」的最後一項元素，預定明年初部署於微軟資料中心，用於執行 Copilot（Bing Chat）AI 和 Azure OpenAI Service，身為 Cobalt 系列首款的 Cobalt 100，已用於 Teams 和 Azure SQL。

此外，微軟也同時宣布推出 Azure Boost，類似 AWS（Amazon Web Services）的 Nitro，可將許多虛擬機器管理程式、網路與儲存功能，從主機伺服器卸載至外購 FPGA 與微軟內部設計（源自於 2023 年初併購的 Fungible）的 DPU，減輕 CPU 核心負擔。

無獨有偶，自從 2015 年收購 Annapurna Labs 新創後，始終致力開發自家晶片，並陸續設計一系列 Nitro（工作卸載）、Graviton（通用計算）、Inferentia（人工智慧推論）和 Trainium（人工智慧訓練）的 AWS，接著 2023 年 11 月 28 日發表第二代 AI 訓練處理器 Trainium2 與萬眾期待的 Graviton4，後者是短短五年內推出第四代晶片，使用台積電 4 奈米製程，96 個 Arm Neoverse V 2 核心（Cortex-X3 的伺服器特化版），不僅有總容量 192MB 的第二階快取記憶體，12 通道 DDR5-5600 記憶體更提供多達 536.7GB/s 峰值理論頻寬，比上代 Graviton3 高出足足 75%。

▲ 歷經多年自研晶片歷史，AWS 2023 年底也發表第四代 Arm 處理器 Graviton4 與第二代人工智慧訓練處理器 Trainium2，前者並且是塞入 96 個 Arm Neoverse V2 核心（nVidia Grace CPU 是 72 個）、192MB 容量第二階快取記憶體、與 12 通道 DDR5-5600 記憶體控制器的怪獸。

與 Graviton3 相比，Graviton4 平均運算效能提高 30%，資料庫應用程式增加 40%，Java 應用程式提升 45%，將先於記憶體最佳化的 Amazon EC2 R8g 執行個體登場，特別利於改善高階資料庫和分析的效能。更重要的是，AWS 表示部署超過「200 萬顆」Graviton 系列處理器，真是歷史性的一刻。

微軟 Cobalt 100 乍看很厲害，其實也落後技術規格相近的阿里巴巴「倚天 710」（台積電 5 奈米，128 個 Arm Neoverse N2 核心，8 通道 DDR5 記憶體，96 個 PCIe 5.0 通道）超過兩年。

▲ 不限美國，中國雲端巨頭也沒有閒著，阿里巴巴更早就發表倚天 710，比微軟更早實現 128 核心 Neoverse N2。

總而言之，自力研發為自己量身訂做的自家晶片，這些年蔚然成為雲端巨頭共識，這對 20 世紀末期至今，靠雲端資料中心崛起賺取大量利潤的 x86 雙雄（或總算 Arm 伺服器站穩腳步的 Ampere），不啻是天大的壞消息。英特爾狂堆 E-Core 核心數打「核戰」，也是不得已的選擇。

英特爾「小核」的諸多挑戰

回過頭來，英特爾揮灑「小核」E-Core、帶頭狂衝核心數量是一回事，但考慮到某些技術因素和競爭對手，英特爾依然有以下困難：

x86 處理器研發一向曠日費時，Arm 不但端出 Neoverse 平台，還變出 Neoverse CSS 這種驗證過模組化 IP 區塊，擴大 x86 在 Time To Market 的劣勢，英特爾已「提案」簡化後純 64 位元 x86 指令集，但看在 x86 處理器微架構清一色是伺服器和個人電腦一起共用的份上，否則難以攤平開發成本，再考量軟體廠商的態度，英特爾勢必要折騰好段時日。
第 12 代 Core 處理器的「混核」充分暴露出 P-Core 和 E-Core 可相容指令集並不完全一致的宿疾，還把 AVX-512 優勢平白拱手讓給 AMD。英特爾先前發表「AVX10」這繞遠路讓 E-Core 未來可補回 AVX-512 的計畫，但按照產品時程表，2026 年前都看不到任何引進產品的可能性。AMD 幾乎篤定可靠 AVX-512 獨領風騷好一陣子，況且 AVX-512 對 5G 基地台是很重要的存在，像 5G 低密度奇偶檢查碼（LDPC）的軟體解碼就是很好的例子。英特爾自廢武功的結果，就是送給 AMD EPYC 8002 Siena 一堆 5G 微型基地台潛在商機。
CPU 核心數激增，記憶體的頻寬和延遲也要跟著上來。Sierra Forest 飆上 288 核，但似乎還沒看到英特爾在增進記憶體子系統的效能有哪些改進措施，現在看來是連 MCR（Multiplexer Combined Ranks）記憶體模組都沒有，也沒看到 HBM 之類的「外掛」，屆時記憶體會不會變成效能瓶頸，或許雲端巨頭很快就會知道答案了。

▲ SK 海力士先發表的 MCR（Multiplexer Combined Ranks）記憶體模組，藉從個別記憶體秩（Rank）調來的兩筆 64Bytes 資料，先集中到緩衝區，接著再一次性傳送 128Bytes，可達成接近倍增的記憶體資料傳送量。Granite Rapids 是首先支援此技術的英特爾處理器，但「兄弟」Sierra Forest 卻看似無福消受。

只不過，無論最終 Sierra Forest 表現究竟如何，假若回到「RISC（精簡指令集電腦）vs. CISC（複雜指令集電腦）」之爭的古老年代，的確難想像 x86 指令集相容處理器可帶頭「領跑」核心數競賽，也許除了 Time To Market，還在過度強調「指令集架構的良窳」早就沒有任何意義，最起碼現在確實如此。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

科技

回顧英特爾伺服器的「原子小金剛」：E-Core

科技新報