Hot Chips 之後，IBM 與 Intel 的處理器新開獎日

「心中一塊大石頭落了地，卻砸到腳」，是不學無術的筆者先後在高中與大學聯考總算結束後，對家中長輩的詢問，唯一的單細胞動物制式反應，然後就只得到無窮無盡的白眼。

對於 8 月中旬，才剛以全程線上活動舉辦的「處理器業界最好的技術研討會」第 32 屆 IEEE Hot Chips，在計算機工業史上曾先後掌握先進半導體製程牛耳的 IBM 與英特爾（Intel），隨著逐漸纏身的摩爾第二定律「詛咒」，兩間擠了 4 年牙膏的 I 開頭大公司，公布「嶄新技術」細節後，只能讓筆者立刻重溫兩次聯考劃下句點時的即視感。

總之重點可簡述如下表。

繼續用 28 核心打 AMD 64 核的 10 奈米製程 Xeon

英特爾從 2017 年夏天至今一直換湯不換藥的 Xeon 平台「Purley」（Skylake-SP、Cascade Lake-SP/AP），製程從 14 奈米+ 擠到 14 奈米++，即將升級換代到 Whitley 平台與 10 奈米製程的 Ice Lake-SP 處理器。

筆者更好奇被腰斬的 14 奈米+++ 製程 Cooper Lake-SP，這個在新平台的舊製程處理器，究竟是熱到什麼程度（一度外傳核心數量多達 48），或是出了什麼問題，才難逃被腰斬的命運，可惜大概將和末代 NetBurst 微架構 Tejas 一樣，永遠沒有公諸於世的機會。

但最讓人「眼睛一亮」的，莫過於 Ice Lake-SP 不動如山的 28 核。等一下，之前謠傳的 38 核版本到哪去了？全新 Xeon 的核心數如此之少是不是搞錯了什麼？唯一值得安慰的是，AMD 第三代 EPYC「Milan」「應該」維持 64 核，尚未拉開差距。

Ice Lake-SP 導入的 Sunny Cove 核心，「比前代 Cascade Lake 的 IPC 成長 18%」和那票針對密碼學和解壓縮而新增的 AVX-512 擴充指令，乍看之下也不是什麼新奇玩意了，像 IFMA、VBMI2、BITALG、VPCLMULQDQ、GFNI、VAES 等，也都早就高高掛在 Wiki 的內容。

唯一略有新意者，僅限伺服器版 Sunny Cove 核心激增每個核心專屬的 L2 快取容量（512kB→1.25MB）以及第二個浮點乘積和（second FMA）執行單元。

當然，單一核心之外，整顆 Ice Lake-SP 系統架構層面的改進也並非一無可取，PCIe Gen4 與 8 通道 DDR4 記憶體控制器是顯而易見的亮點。

但最值得一提的是，英特爾設法縮短整體記憶體存取延遲的努力，像多核心網狀（Mesh）規劃從 6×3 變成 7×3，每個網狀區塊可直接存取的記憶體通道數從 3 個降成 2 個（可參考這篇關於 AMD EPYC 記憶體通道的內容），改善快取資料一致性協定的效率，和配置電源管理專用的控制訊號匯流排（對 AMD 處理器有點認識的話，就想成 Infinity Fabric 中當作「神經」的 Scalable Control Fabric）等，諸如此類，讓 Ice Lake-SP 的有效記憶體頻寬，相較於前代激增 43% 到 89%。

我們也可以合理預期，英特爾應也將重新攻擊 AMD 因多晶片 Chiplet 路線，而導致整體記憶體延遲較長的「弱點」，這嘴砲攻勢從初代 EPYC 就開始進行了，死灰復燃也不會讓人太意外。

像提升執行 AVX-512 指令集的處理器運行時脈（畢竟也不是所有的 AVX-512 指令都很耗電）、改進處理器時脈切換的反應時間與精細粒度（所以又多出 Intel Speed Select Technology 這個新技術行銷名詞），這些例行公事，也都是英特爾在 HotChips 32 介紹 Ice Lake-SP 的重點項目。

但回過頭來，Sunny Cove 核心的「額外 18 趴 IPC」加上「1.5~8 倍效能的密碼學應用」，恐怕也不會有人覺得這足以抵銷區區 28 核的壓倒性數量劣勢。按照常理判斷，英特爾不太可能沒準備更多核心的後繼版（假若真的有，大概一兩年前那票伺服器 ODM 廠商都會得到詳細資訊了）。當然我們有充分理由認定，即使產品規格輸人，英特爾依舊握有大量「生態系統資源」維持市占率不墜，但能否繼續享受過往一樣豐厚的利潤，那就是大大的問號了。

尤其雲端服務業者建置新一批伺服器的大宗處理器採購案，那刀刀見骨的砍價幅度，恐怕連擅長殺價的菜市場大媽都自嘆不如，現在又剛好是英特爾想在先進製程技術重振旗鼓，挑戰摩爾第二定律的關鍵時刻，英特爾是否還保有足夠銀彈，支撐擘畫未來十年的製程研發，就請各位搬好凳子，備好零食等著看好戲。

雙晶片封裝拼核心數加上狂衝人工智慧的 IBM Power10

IBM Power9 走了足足三代後（Scale-Out，Scale-Up，Advanced I/O）才粉墨登場的 Power10，預計一年內推出伺服器系統產品。乍看之下 Power10 只是前代 Power9 的微幅改進版，似乎沒有什麼獨到特色，但筆者仍必須強調幾個很有看頭的重點。

三星 7 奈米製程：從之前的三星 14 奈米躍進到 7 奈米，讓能耗比成為前代 3 倍，IBM 下一代大型主機 z16 也預計會採用相同製程，這個就沒什麼好提了，哪天轉單到台積電再來叫我。

雙晶片封裝加倍核心數量：Power10 實做了 16 個 SMT8 核心（或 32 個 SMT4），這次公布的是 SMT8 版，為了提高良率少了一個，因此 15 個 SMT8 核心、120 執行緒。Power10 將有雙晶片封裝版本，一個處理器腳座將最多擁有 30 個 SMT8 核心與 240 條執行緒。

PCIe Gen5：領先英特爾和 AMD 一大步，而 Power9 超級暴力的各類 I/O 介面，像 PowerAXON 和 Open Memory Interface，也繼續在 Power10 發揚光大。

強化人工智慧應用：Power 指令集 v3.1 版，支援各類可能用到的資料格式（BF16、FP16、INT8、INT4），並在微架構層面增強 SIMD 指令集效能。Power10 的單核心整體效能較 Power9 提高 30%，單執行緒效率多出 20%，能耗比則為 2.6 倍（因核心較多，單晶片就變成 3 倍）。

IBM 在擴張指令集的路上，也碰到 Power 指令編碼欄位不足的問題，如同 Fujitsu 在 SPARC64 VIIIfx 實作 HPC-ACE 和 A64FX 上的 SVE，IBM 透過追加前述碼（Prefix）來變相延長指令長度。

有趣的是，近似英特爾 Sunny Cove，IBM Power10 有志一同激增 L1 與 L2 快取容量，L1 資料快取是 Power9 1.5 倍的 48kB（但英特爾下手的卻是指令快取），L2 快取變成前代 512kB 四倍的 2MB，也許這或多或少反映了時下應用程式的行為偏好。

很厲害的記憶體叢集分享機制：如使用 Power10 建置叢集（Cluster）運算環境，可將所有節點的記憶體建成最高 2PB 的「記憶體池」，彼此互通有無，並根據不同的工作負載特性（如可接受存取延遲與所需容量）最佳化配置，像有嚴苛存取時間限制的工作，就使用節點本地端的主記憶體，但可接受高延遲卻需要高容量者，就優先佈署在遠端的節點。基本上，如此高階的先進功能，如果不是像 IBM 這樣高度軟硬兼備垂直整合的玩法，連想都可以不用想了。

IBM 透露 Power10 的研發工作打從 2015 年就啟動，足足花了 5 年，這次 IBM 又會用力擠 Power10 這條高貴的牙膏多久呢？值得拭目以待。

挾著 Willow Cove 核心和 Xe GPU 想 4 核打 8 核的 Tiger Lake-U

最近有關心筆電的讀者，不太可能沒感受到網路論壇對 AMD 8 核心機種的討論熱度，像「AMD 真香」之類的評語，如森林大火越燒越旺，AMD 筆電市占率急速成長、2020 年第二季銷售創下歷史新高，也不是什麼大新聞了。

再怎麼討厭 AMD 的人都不得不承認，7 奈米製程的 Zen 2 世代 APU「Renoir」的確是很有魅力的產品，這間公司購併 ATI 後花了十幾年，終於摸出 APU 的最佳產品定位，而英特爾這兩年多來的大缺貨更送給 AMD 可趁之機，導致 AMD 自己也賣到出貨不足，真是有夠可喜可賀。至於 AMD 是否會像英特爾，將從台積電搶來的有限產能，優先供應給高獲利的伺服器產品線，那就不得而知了，只能說機率不低。

英特爾在 2020 年的筆電市場，唯一可「迎擊」AMD Renoir 的新品，唯有具備新一代 Willow Cove 微架構核心、新世代 Xe 繪圖、PCIe 4.0、Thunderbolt 4、USB 4、UPDDR5-5400、AVX-512 新指令 VP2INTERSECT（坊間有種說法：從 Tiger Lake 開始，AVX-512 終於有 1.0 版了）、GNA 2.0 人工智慧推論輔助處理器、更多影音編解碼格式的 Tiger Lake-U。

喔，差點忘了，Tiger Lake 製程是英特爾第三代 10 奈米，也就是所謂的「10 奈米++」，包含英特爾最新製程技術，像 SuperFin 電晶體結構和強化後的金屬層堆疊之類的。

只不過，為何英特爾只發表 4 核心版本？65W 的 8 核心版本在哪裡？

雖然今年流傳的 4 核 Tiger Lake-U，第 12 代的 Xe 內顯可略勝 Renoir 內的 Vega 8，但絕對不會有人傻傻相信 4 核 Willow Cove 可追上 8 核 Zen 2。偏向消費性產品的筆電，改變市場版圖的所需動量遠不及伺服器，隨時都可風雲變色，屆時天天上演「知名筆電品牌的同樣型號，AMD 版痛扁英特爾版」也不會讓人有一絲一毫意外。

先假裝忘記「啊，英特爾又是被迫一打二」的感慨，我們總得瞧瞧 Willow Cove 和 Xe 究竟是何方神聖。

Willow Cove 大體可視為「配合 SuperFin 電晶體結構最佳化電路設計、擴大 L2 / L3 快取記憶體、追加抵禦間接分支攻擊手段（間接分支追蹤機能，Windows 10 即將支援的 Shadow Stack）」的 Sunny Cove 微幅改良版，會有更高時脈這件事就無需贅述。千篇一律的「小步快跑」，讓筆者連打字都開始感覺漸漸有氣無力。

那麼，英特爾第 12 代（還有人記得 10 奈米首發 Cannon Lake 那跟著 Palm Cove 一同短命殉情的第十代嗎）內顯的技術根基：Xe，又是怎麼回事？坦白講，在尚無大規模（包括消費性獨顯和 HPC 版本）的廣泛效能測試出爐前，筆者下不了什麼結論，但有大量「Optional」功能項目（固定繪圖功能，FP64，Matrix Extension，Rambo Cache，多晶片延展性），企圖藉由更具彈性的 IP 區塊與新世代多晶片封裝技術，以便於打造多樣化的產品線滿足所有市場區隔，倒是顯而易見。

聽說 nVidia 下一代 GPU「Hopper」也將採取 Chiplet 路線，默默進行 EHP 計畫的 AMD 則早已磨刀霍霍，包水餃大戰從 CPU 一路延燒到 GPU 之日，恐將不遠矣。

AMD Renoir 確定只有 8 個 Vega CU，但是……

去年關於 AMD Renoir APU 的眾多謠傳和流出的產品規格，一律指出 Renoir 將具備比前代 Picasso 更多 Vega 繪圖核心（超過 11 個），但 AMD 在 CES 公布的資訊卻讓人大失所望，也不乏「AMD 其實暗藏一手，等著堵英特爾 Tiger Lake」的無責任猜想。

AMD 在 HotChips 32 開獎了：的確從 11 個減少到 8 個，卻換來更高時脈、效能與能耗比。

倍增的內顯匯流排寬度（Inifity Fabric 內當成「血管」的 Scalable Data Fabric）、高 25% 的時脈、多 77% 的峰值記憶體頻寬、縮減 61% 晶片面積，但效能激增 27%，換言之，「晶片效能密度」是前代 225%。最讓人滿臉黑線的是：AMD 原先還只想放 6 個核心，後來才發現在晶片面積與功耗預算內，放 8 個也沒問題，結果就開開心心塞進去了。

不過，事情還沒完。約一個月前，就傳出 AMD 將推出有更多 Vega 繪圖核心（11 個以上）和更多 PCIe（x16）的「Big Renoir」，也就是傳說中的「Lucienne」，當成現有 Renior 的「升級方案」，反正 AMD 就是不想輕易放開苦等多年難得掌握到的技術優勢就對了。

但對筆者來說，看在 Vega 保有 Fluid Motion 補幀功能的分上，能活越久當然越好，據說 Zen 3 世代 APU「Cezanne」內顯也還是 Vega，只希望未來 AMD 願意在 RDNA 繪圖體系，復活這個看動畫的好物。

最後，筆者是不是忘記某人的主題演講了？算了，大家只要記得「No Transistor Left Behind」是英特爾 Xe 繪圖技術的口號就夠了。

（首圖來源：pixabay）

請更新您的瀏覽器

科技

科技新報

繼續用 28 核心打 AMD 64 核的 10 奈米製程 Xeon

雙晶片封裝拼核心數加上狂衝人工智慧的 IBM Power10

挾著 Willow Cove 核心和 Xe GPU 想 4 核打 8 核的 Tiger Lake-U

AMD Renoir 確定只有 8 個 Vega CU，但是……

留言 0