請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

回顧英特爾伺服器的「原子小金剛」:E-Core

科技新報

更新於 2024年01月19日10:56 • 發布於 2024年01月22日08:30

長期關心智慧手機市場的讀者,對 Arm 指令集相容處理器的「大核配小核」都不會太陌生。以英特爾 x86 處理器為主的個人電腦,首次大規模導入類似「混核架構」者,是第 12 代 Core 處理器 Alder Lake。

它是少數「大核」P-Core(Performance Core,Golden Cove 微架構)藉高時脈和超執行緒(HyperThreading)負責高負載任務,達成最低運算延遲(Latency),而多數「小核」E-Core(Efficient Core,Gracemont 微架構)則透過大量核心數,實現執行輕負載工作時的多執行緒輸出量(Throughput)。

▲ 講簡單點,所謂「大核」專注縮短延遲的單執行緒效能,「小核」則聚焦增加輸出量的多執行緒效率。

其實英特爾尚未創造「E-Core」這名詞前,早在 2020 年第二季上市的 Lakefield 處理器(Core i5-L16G7、Core i3-L13G4)就採取「一大四小」配置。英特爾概念也與 Arm 處理器有明顯差異,相較僅追求省電的後者,前者「小核」可一點都不小,以前述 Gracemont 微架構 E-Core 來說,四核 Gracemont 相對雙核 Skylake,相同性能時,功耗降低 80%,相同功耗時,性能高 80%。

▲ 英特爾「小核」效能可一點都不含糊,已具備挑戰昔日「大核」的雄厚實力,特別是多核心執行多執行緒應用程式的場景。

也因此,源自 Atom 體系、後來正名 E-Core 的「小核」,自 2012 年至今,一直在伺服器市場占有一席之地,英特爾 2023 年發表的第六代「雲端原生」(Cloud Native)Xeon-SP 處理器 Sierra Forest,更陸續「堆出」驚世駭俗的 144 個和 288 個 E-Core 版,完全顛覆世人對 Intel Inside 的「原子小金剛」最初刻板印象:僅能勉強承擔低效能、低功耗應用,如小桌機、小筆電、平板、嵌入式系統、機上盒、纜線數據機、家用網路伺服器、先後以慘敗收場的智慧手機與高效能運算。

▲ 猛拚核心數量的「雲端原生處理器」戰場,英特爾預定今年上半年推出第六代 Xeon-SP Sierra Forest,一口氣將核心數推進到 288 個 E-Core。

嶄新的 2024 年,英特爾將以 Sierra Forest 為首,跟著 AMD、Ampere 和眾多自研晶片雲端巨頭,加入這場「超多核心雲端原生伺服器處理器」大革命,這也是英特爾首次將 E-Core 引進高 CPU 核心數的伺服器晶片。許多人聽到 Atom 和 E-Core,很可能立即覺得「這東西應該很弱」,但如今情況卻非如此。

考量到英特爾推出 Atom S1200 系列超過十年,且英特爾宣傳往往相對「低調」,甚至不乏莫名其妙突然上市的案例,或因應特定客戶需求而眾人不知不覺時冒出特殊型號,就簡單快速了解這「原子小金剛伺服器處理器」演變,與簡介英特爾 Xeon D 產品線,並同場加映雲端巨頭自研晶片近況,以及「x86 雙雄」即將面臨的嚴苛挑戰。

Atom 伺服器從 32 到 10 奈米的十年歷程

一言以蔽之,英特爾這票「原子小金剛伺服器處理器」定位,在新式網路基礎架構、安全加速器與儲存裝置,讓企業「締造最佳化的效能與成本平衡」,更白話點就是「使用傳統 Xeon 處理器,完全是殺雞用牛刀」。

▲ 英特爾將 Atom 投入伺服器市場,是為了滿足「穠纖合度」的市場需要:連網能力要強,但無需太好運算效能,成本和功耗也不能太高。

Saltwell 微架構(32 奈米):最早 Atom 核心的製程微縮。

規格重點:補回消費型 Atom 缺少的功能,如 VT-x 虛擬化與 ECC 記憶體。

  • Atom S1200 系列 Centerton(2012 年 12 月):雙核心/四執行緒,最高時脈 2GHz,最高功耗 8.5W。

  • Atom S12x9 系列 Briarwood(2013 年第二季):雙核心/四執行緒,最高時脈 2GHz,最高功耗 14.1W,主要多出更多的 PCIe 2.0。

Silvermont 微架構(22 奈米):放棄同時多執行緒,邁向非循序指令執行。

規格重點:取消 HyperThreading,引進 Atom 家族的第一代非循序指令執行(Out-Of-Order Execution),這也成為後繼產品的共同特色。另外,也開始內建 USB、SATA、UART 和 GbE 網路控制器,成為貨真價實的伺服器「系統單晶片」(SoC,System-on-Chip)。

  • Atom C2x30 / C2x50 系列 Avoton(2013 年 9 月):最多 8 核心,最高時脈 2.6GHz,最高功耗 20W。

  • Atom C2xx8 / C2x16 系列 Rangeley(2013 年 9 月至 2017 年 7 月):最多 8 核心,最高時脈 2.4 GHz,最高功耗 20W。因產品定位是「通訊處理器」,所以多數型號支援 Quick Assist(QAT) 密碼學與壓縮處理加速技術,加速對稱/非對稱加密與無失真壓縮,讓 CPU 資源得以釋出用於其他工作,並可加快 IPsec VPN 的速度。

Goldmont 微架構(14 奈米):增加 50% 指令解碼器寬度。

規格重點:Atom 家族的第二代非循序指令執行(Out-Of-Order Execution),開始內建 2.5GbE 和 10GbE 網路控制器,並支援 VT-d I/O 虛擬化技術。

  • Atom C3000 系列 Denverton(2017 年 1 月至 2020 年 5 月):最多 16 核心,最高時脈 2.4GHz,最高功耗 31W。這系列大量用於 5G 微型基地台。

Tremont 微架構(10 奈米):倍增的指令解碼器寬度,帶來 Atom 史上最巨幅的效能增長。

規格重點:Atom 家族的第三代非循序指令執行(Out-Of-Order Execution),開始內建 100GbE 網路控制器,並支援動態負載平衡(DLB,Dynamic Load Balancer)技術,讓多核心 CPU 能高效率的分散網路處理作業,並對應 NetSec 加速器參考設計平台,讓安全裝置卸載處理器運算密集的工作負載。

  • Atom P5000系列 Snow Ridge(2020 年 2 月至 2022 年 6 月):最多 24 核心,最高時脈 2.2GHz,最高功耗 83W。P####B 型號針對 5G / LTE 基地台收發站,並因應嚴苛環境所需要的寬溫(-40°C~85°C)。QAT 是第三代版本。

  • Atom C5000 系列 Parker Ridge(2022 年 6 月):最多 8 核心,最高時脈 2.4GHz,最高功耗 50W,這系列就完全為 5G / LTE 基地台收發站而生。QAT 是第二代版本。

至於 mont 結尾第四代的 Gracemont(Intel 7,10 奈米)並未用在伺服器系統單晶片,僅限第 12 代 Core 處理器 Alder Lake、第 13 代 Raptor Lake 以及涵蓋低階桌機與工控的 Alder Lake-N。第五代 Crestmont(Intel 4,7 奈米)則是 2023 年 12 月 14 日登場的 Core Ultra Meteor Lake 的 E-Core 和前面所提六代「雲端原生」Xeon-SP Sierra Forest(Intel 3,強化版 7 奈米)那數量「破表」的驚人核心數。

填補應用缺口並阻擋 Arm 滲入的 Xeon D

但「標準」的 Xeon 處理器和伺服器版 Atom 之間,有個名為 Xeon D 的產品線,看起來跟 Atom 很像,同樣是限定單處理器、有很多的核心數,整合 PCIe、USB、SATA、網路界面控制器,可安裝高容量記憶體且有 ECC 保護,但 CPU 卻基於和一般 Xeon 相同的核心,快取記憶體容量也不在同檔次。絲毫不讓人感到意外,Xeon D 價格比 Atom 貴得多。

▲ Xeon D 是如假包換的高效能伺服器「系統單晶片」。

Xeon D 問世之際,主要作用在「提供比 Xeon E3 更優的每瓦性能和比 Atom 更強的絕對性能,比 Xeon E5 多出更低的功耗和更高的密度」。除此之外,英特爾沒有明講的是,Xeon D 旨在透過卓越的單核心效能,與新興 Arm 伺服器解決方案競爭,尤其阻擋後者從網路儲存伺服器這個「缺口」滲透市場。不過隨著 Arm 伺服器市場威脅早不在這裡,英特爾也沒積極推陳出新,繼續「維持現狀」。

Xeon D 有以下系列:

Broadwell 微架構(14 奈米)

  • Xeon D-1500 系列 Broadwell-DE(2015 年第一季至 2017 第三季):最多16 核心/32 執行緒,最高時脈 2.7GHz,最高功耗 65W,最大記憶體容量 128GB。

Skylake 微架構(14 奈米)

  • Xeon D-2100 系列 Skylake-DE(2018 年第一季):最多 18核心/36 執行緒,最高時脈 3GHz,最高功耗 110W,最大記憶體容量 512GB。

Broadwell 微架構(Hewitt Lake,14 奈米)

  • Xeon D-1600 系列 Hewitt Lake(2010 年第二季):最多 8 核心/16 執行緒,最高時脈 3.2GHz,最高功耗 65W,最大記憶體容量 128GB。

Ice Lake 微架構(10 奈米):值得注意的是,這有支援 AVX-512 指令集。

  • Xeon D-1700 / D-2700 系列 Ice Lake-DE(2022 年第一季):最多 20 核心/40 執行緒,最高時脈 3.5GHz,最高功耗 129W,最大記憶體容量 1TB。D-1700 的 QAT 是第二代,D-2700 則是第三代。

  • Xeon D-1800 / D-2800 系列 Ice Lake-DE(2023 年 12 月 14 日):現有型號小幅改款,相同功耗範圍有較高核心數量,D-2800 新增 22 核心型號,D-1800 增加兩個 100GbE 網路界面。

雲端巨頭自研晶片讓英特爾不得不拚命堆核心

AMD 2023 年上半年推出 128 核 EPYC 97x4 系列(Zen 4 世代,代號 Bergamo,台積電 5 奈米)就是令人印象極度深刻的產品,整體效能是 128 核心 Arm 競爭對手約 3 倍,功耗卻僅 1.5 倍,意味「兩倍能效比」,且 256 執行緒滿載時,仍可保持時脈穩定,這對維持雲端服務品質大有裨益。英特爾當然有足夠理由跟進 AMD 並設法超越,但很可能「x86 雙雄」的最大對手不是彼此。

2023 年 11 月 16 日微軟 Azure Ignite 大會,微軟一口氣公布兩個自行設計、採台積電 5 奈米製程的晶片:專用執行生成式 AI(如 OpenAI 大型語言模型)的 Azure Maia 100 AI 加速器(又稱 Athena 或 M100,1050 億電晶體),以及執行 Azure 雲端通用運算作業的 Arm 架構處理器 Azure Cobalt 100(128 個 Arm Neoverse N2 核心,Cortex-710 的伺服器特化版),比 Azure「其他 Arm 架構晶片」少了 40% 耗電量。

▲ 相繼 AWS、Google 和 Meta 之後,微軟也成為自研處理器的雲端巨頭,採台積電 5 奈米製程的 Azure Cobalt 100 處理器,內建 128 個 Arm Neoverse N2 核心,並直接使用 Arm Neoverse CSS N2 平台打造,由兩個 64 核心模組構成,將用於 Azure 雲端的通用運算作業。微軟也一併公布 Azure Maia 100 AI 加速器,執行 Azure 最大 AI 負載與 OpenAI 大型語言模型。

微軟強調這些晶片是「全自製願景:從軟體、晶片、伺服器、機架到冷卻系統」的最後一項元素,預定明年初部署於微軟資料中心,用於執行 Copilot(Bing Chat)AI 和 Azure OpenAI Service,身為 Cobalt 系列首款的 Cobalt 100,已用於 Teams 和 Azure SQL。

此外,微軟也同時宣布推出 Azure Boost,類似 AWS(Amazon Web Services)的 Nitro,可將許多虛擬機器管理程式、網路與儲存功能,從主機伺服器卸載至外購 FPGA 與微軟內部設計(源自於 2023 年初併購的 Fungible)的 DPU,減輕 CPU 核心負擔。

無獨有偶,自從 2015 年收購 Annapurna Labs 新創後,始終致力開發自家晶片,並陸續設計一系列 Nitro(工作卸載)、Graviton(通用計算)、Inferentia(人工智慧推論)和 Trainium(人工智慧訓練)的 AWS,接著 2023 年 11 月 28 日發表第二代 AI 訓練處理器 Trainium2 與萬眾期待的 Graviton4,後者是短短五年內推出第四代晶片,使用台積電 4 奈米製程,96 個 Arm Neoverse V 2 核心(Cortex-X3 的伺服器特化版),不僅有總容量 192MB 的第二階快取記憶體,12 通道 DDR5-5600 記憶體更提供多達 536.7GB/s 峰值理論頻寬,比上代 Graviton3 高出足足 75%。

▲ 歷經多年自研晶片歷史,AWS 2023 年底也發表第四代 Arm 處理器 Graviton4 與第二代人工智慧訓練處理器 Trainium2,前者並且是塞入 96 個 Arm Neoverse V2 核心(nVidia Grace CPU 是 72 個)、192MB 容量第二階快取記憶體、與 12 通道 DDR5-5600 記憶體控制器的怪獸。

與 Graviton3 相比,Graviton4 平均運算效能提高 30%,資料庫應用程式增加 40%,Java 應用程式提升 45%,將先於記憶體最佳化的 Amazon EC2 R8g 執行個體登場,特別利於改善高階資料庫和分析的效能。更重要的是,AWS 表示部署超過「200 萬顆」Graviton 系列處理器,真是歷史性的一刻。

微軟 Cobalt 100 乍看很厲害,其實也落後技術規格相近的阿里巴巴「倚天 710」(台積電 5 奈米,128 個 Arm Neoverse N2 核心,8 通道 DDR5 記憶體,96 個 PCIe 5.0 通道)超過兩年。

▲ 不限美國,中國雲端巨頭也沒有閒著,阿里巴巴更早就發表倚天 710,比微軟更早實現 128 核心 Neoverse N2。

總而言之,自力研發為自己量身訂做的自家晶片,這些年蔚然成為雲端巨頭共識,這對 20 世紀末期至今,靠雲端資料中心崛起賺取大量利潤的 x86 雙雄(或總算 Arm 伺服器站穩腳步的 Ampere),不啻是天大的壞消息。英特爾狂堆 E-Core 核心數打「核戰」,也是不得已的選擇。

英特爾「小核」的諸多挑戰

回過頭來,英特爾揮灑「小核」E-Core、帶頭狂衝核心數量是一回事,但考慮到某些技術因素和競爭對手,英特爾依然有以下困難:

  • x86 處理器研發一向曠日費時,Arm 不但端出 Neoverse 平台,還變出 Neoverse CSS 這種驗證過模組化 IP 區塊,擴大 x86 在 Time To Market 的劣勢,英特爾已「提案」簡化後純 64 位元 x86 指令集,但看在 x86 處理器微架構清一色是伺服器和個人電腦一起共用的份上,否則難以攤平開發成本,再考量軟體廠商的態度,英特爾勢必要折騰好段時日。

  • 第 12 代 Core 處理器的「混核」充分暴露出 P-Core 和 E-Core 可相容指令集並不完全一致的宿疾,還把 AVX-512 優勢平白拱手讓給 AMD。英特爾先前發表「AVX10」這繞遠路讓 E-Core 未來可補回 AVX-512 的計畫,但按照產品時程表,2026 年前都看不到任何引進產品的可能性。AMD 幾乎篤定可靠 AVX-512 獨領風騷好一陣子,況且 AVX-512 對 5G 基地台是很重要的存在,像 5G 低密度奇偶檢查碼(LDPC)的軟體解碼就是很好的例子。英特爾自廢武功的結果,就是送給 AMD EPYC 8002 Siena 一堆 5G 微型基地台潛在商機。

  • CPU 核心數激增,記憶體的頻寬和延遲也要跟著上來。Sierra Forest 飆上 288 核,但似乎還沒看到英特爾在增進記憶體子系統的效能有哪些改進措施,現在看來是連 MCR(Multiplexer Combined Ranks)記憶體模組都沒有,也沒看到 HBM 之類的「外掛」,屆時記憶體會不會變成效能瓶頸,或許雲端巨頭很快就會知道答案了。

▲ SK 海力士先發表的 MCR(Multiplexer Combined Ranks)記憶體模組,藉從個別記憶體秩(Rank)調來的兩筆 64Bytes 資料,先集中到緩衝區,接著再一次性傳送 128Bytes,可達成接近倍增的記憶體資料傳送量。Granite Rapids 是首先支援此技術的英特爾處理器,但「兄弟」Sierra Forest 卻看似無福消受。

只不過,無論最終 Sierra Forest 表現究竟如何,假若回到「RISC(精簡指令集電腦)vs. CISC(複雜指令集電腦)」之爭的古老年代,的確難想像 x86 指令集相容處理器可帶頭「領跑」核心數競賽,也許除了 Time To Market,還在過度強調「指令集架構的良窳」早就沒有任何意義,最起碼現在確實如此。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

路透:輝達擬提高H200晶片產量 因應中國強勁需求

路透社
02

英特爾已測試涉中晶片設備 外界憂可能用於先進製程

路透社
03

迪士尼10億美元注資OpenAI Sora可使用經典角色

路透社
04

美參議員華倫籲黃仁勳出席聽證 說明川普售中國晶片決策

路透社
05

微軟強化 Windows 11,FSE、ASD 助力遊戲體驗升級

科技新報
06

3大電信影音收視榜揭曉 韓綜台劇動漫3大主力

卡優新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...