「心中一塊大石頭落了地,卻砸到腳」,是不學無術的筆者先後在高中與大學聯考總算結束後,對家中長輩的詢問,唯一的單細胞動物制式反應,然後就只得到無窮無盡的白眼。
對於 8 月中旬,才剛以全程線上活動舉辦的「處理器業界最好的技術研討會」第 32 屆 IEEE Hot Chips,在計算機工業史上曾先後掌握先進半導體製程牛耳的 IBM 與英特爾(Intel),隨著逐漸纏身的摩爾第二定律「詛咒」,兩間擠了 4 年牙膏的 I 開頭大公司,公布「嶄新技術」細節後,只能讓筆者立刻重溫兩次聯考劃下句點時的即視感。
總之重點可簡述如下表。
繼續用 28 核心打 AMD 64 核的 10 奈米製程 Xeon
英特爾從 2017 年夏天至今一直換湯不換藥的 Xeon 平台「Purley」(Skylake-SP、Cascade Lake-SP/AP),製程從 14 奈米+ 擠到 14 奈米++,即將升級換代到 Whitley 平台與 10 奈米製程的 Ice Lake-SP 處理器。
筆者更好奇被腰斬的 14 奈米+++ 製程 Cooper Lake-SP,這個在新平台的舊製程處理器,究竟是熱到什麼程度(一度外傳核心數量多達 48),或是出了什麼問題,才難逃被腰斬的命運,可惜大概將和末代 NetBurst 微架構 Tejas 一樣,永遠沒有公諸於世的機會。
但最讓人「眼睛一亮」的,莫過於 Ice Lake-SP 不動如山的 28 核。等一下,之前謠傳的 38 核版本到哪去了?全新 Xeon 的核心數如此之少是不是搞錯了什麼?唯一值得安慰的是,AMD 第三代 EPYC「Milan」「應該」維持 64 核,尚未拉開差距。
Ice Lake-SP 導入的 Sunny Cove 核心,「比前代 Cascade Lake 的 IPC 成長 18%」和那票針對密碼學和解壓縮而新增的 AVX-512 擴充指令,乍看之下也不是什麼新奇玩意了,像 IFMA、VBMI2、BITALG、VPCLMULQDQ、GFNI、VAES 等,也都早就高高掛在 Wiki 的內容。
唯一略有新意者,僅限伺服器版 Sunny Cove 核心激增每個核心專屬的 L2 快取容量(512kB→1.25MB)以及第二個浮點乘積和(second FMA)執行單元。
當然,單一核心之外,整顆 Ice Lake-SP 系統架構層面的改進也並非一無可取,PCIe Gen4 與 8 通道 DDR4 記憶體控制器是顯而易見的亮點。
但最值得一提的是,英特爾設法縮短整體記憶體存取延遲的努力,像多核心網狀(Mesh)規劃從 6×3 變成 7×3,每個網狀區塊可直接存取的記憶體通道數從 3 個降成 2 個(可參考這篇關於 AMD EPYC 記憶體通道的內容), 改善快取資料一致性協定的效率,和配置電源管理專用的控制訊號匯流排(對 AMD 處理器有點認識的話,就想成 Infinity Fabric 中當作「神經」的 Scalable Control Fabric)等,諸如此類,讓 Ice Lake-SP 的有效記憶體頻寬,相較於前代激增 43% 到 89%。
我們也可以合理預期,英特爾應也將重新攻擊 AMD 因多晶片 Chiplet 路線,而導致整體記憶體延遲較長的「弱點」,這嘴砲攻勢從初代 EPYC 就開始進行了,死灰復燃也不會讓人太意外。
像提升執行 AVX-512 指令集的處理器運行時脈(畢竟也不是所有的 AVX-512 指令都很耗電)、改進處理器時脈切換的反應時間與精細粒度(所以又多出 Intel Speed Select Technology 這個新技術行銷名詞),這些例行公事,也都是英特爾在 HotChips 32 介紹 Ice Lake-SP 的重點項目。
但回過頭來,Sunny Cove 核心的「額外 18 趴 IPC」加上「1.5~8 倍效能的密碼學應用」,恐怕也不會有人覺得這足以抵銷區區 28 核的壓倒性數量劣勢。按照常理判斷,英特爾不太可能沒準備更多核心的後繼版(假若真的有,大概一兩年前那票伺服器 ODM 廠商都會得到詳細資訊了)。當然我們有充分理由認定,即使產品規格輸人,英特爾依舊握有大量「生態系統資源」維持市占率不墜,但能否繼續享受過往一樣豐厚的利潤,那就是大大的問號了。
尤其雲端服務業者建置新一批伺服器的大宗處理器採購案,那刀刀見骨的砍價幅度,恐怕連擅長殺價的菜市場大媽都自嘆不如,現在又剛好是英特爾想在先進製程技術重振旗鼓,挑戰摩爾第二定律的關鍵時刻,英特爾是否還保有足夠銀彈,支撐擘畫未來十年的製程研發,就請各位搬好凳子,備好零食等著看好戲。
雙晶片封裝拼核心數加上狂衝人工智慧的 IBM Power10
IBM Power9 走了足足三代後(Scale-Out,Scale-Up,Advanced I/O)才粉墨登場的 Power10,預計一年內推出伺服器系統產品。乍看之下 Power10 只是前代 Power9 的微幅改進版,似乎沒有什麼獨到特色,但筆者仍必須強調幾個很有看頭的重點。
三星 7 奈米製程:從之前的三星 14 奈米躍進到 7 奈米,讓能耗比成為前代 3 倍,IBM 下一代大型主機 z16 也預計會採用相同製程,這個就沒什麼好提了,哪天轉單到台積電再來叫我。
雙晶片封裝加倍核心數量:Power10 實做了 16 個 SMT8 核心(或 32 個 SMT4),這次公布的是 SMT8 版,為了提高良率少了一個,因此 15 個 SMT8 核心、120 執行緒。Power10 將有雙晶片封裝版本,一個處理器腳座將最多擁有 30 個 SMT8 核心與 240 條執行緒。
PCIe Gen5:領先英特爾和 AMD 一大步,而 Power9 超級暴力的各類 I/O 介面,像 PowerAXON 和 Open Memory Interface,也繼續在 Power10 發揚光大。
強化人工智慧應用:Power 指令集 v3.1 版,支援各類可能用到的資料格式(BF16、FP16、INT8、INT4),並在微架構層面增強 SIMD 指令集效能。Power10 的單核心整體效能較 Power9 提高 30%,單執行緒效率多出 20%,能耗比則為 2.6 倍(因核心較多,單晶片就變成 3 倍)。
IBM 在擴張指令集的路上,也碰到 Power 指令編碼欄位不足的問題,如同 Fujitsu 在 SPARC64 VIIIfx 實作 HPC-ACE 和 A64FX 上的 SVE,IBM 透過追加前述碼(Prefix)來變相延長指令長度。
有趣的是,近似英特爾 Sunny Cove,IBM Power10 有志一同激增 L1 與 L2 快取容量,L1 資料快取是 Power9 1.5 倍的 48kB(但英特爾下手的卻是指令快取),L2 快取變成前代 512kB 四倍的 2MB,也許這或多或少反映了時下應用程式的行為偏好。
很厲害的記憶體叢集分享機制:如使用 Power10 建置叢集(Cluster)運算環境,可將所有節點的記憶體建成最高 2PB 的「記憶體池」,彼此互通有無,並根據不同的工作負載特性(如可接受存取延遲與所需容量)最佳化配置,像有嚴苛存取時間限制的工作,就使用節點本地端的主記憶體,但可接受高延遲卻需要高容量者,就優先佈署在遠端的節點。基本上,如此高階的先進功能,如果不是像 IBM 這樣高度軟硬兼備垂直整合的玩法,連想都可以不用想了。
IBM 透露 Power10 的研發工作打從 2015 年就啟動,足足花了 5 年,這次 IBM 又會用力擠 Power10 這條高貴的牙膏多久呢?值得拭目以待。
挾著 Willow Cove 核心和 Xe GPU 想 4 核打 8 核的 Tiger Lake-U
最近有關心筆電的讀者,不太可能沒感受到網路論壇對 AMD 8 核心機種的討論熱度,像「AMD 真香」之類的評語,如森林大火越燒越旺,AMD 筆電市占率急速成長、2020 年第二季銷售創下歷史新高,也不是什麼大新聞了。
再怎麼討厭 AMD 的人都不得不承認,7 奈米製程的 Zen 2 世代 APU「Renoir」的確是很有魅力的產品,這間公司購併 ATI 後花了十幾年,終於摸出 APU 的最佳產品定位,而英特爾這兩年多來的大缺貨更送給 AMD 可趁之機,導致 AMD 自己也賣到出貨不足,真是有夠可喜可賀。至於 AMD 是否會像英特爾,將從台積電搶來的有限產能,優先供應給高獲利的伺服器產品線,那就不得而知了,只能說機率不低。
英特爾在 2020 年的筆電市場,唯一可「迎擊」AMD Renoir 的新品,唯有具備新一代 Willow Cove 微架構核心、新世代 Xe 繪圖、PCIe 4.0、Thunderbolt 4、USB 4、UPDDR5-5400、AVX-512 新指令 VP2INTERSECT(坊間有種說法:從 Tiger Lake 開始,AVX-512 終於有 1.0 版了)、GNA 2.0 人工智慧推論輔助處理器、更多影音編解碼格式的 Tiger Lake-U。
喔,差點忘了,Tiger Lake 製程是英特爾第三代 10 奈米,也就是所謂的「10 奈米++」,包含英特爾最新製程技術,像 SuperFin 電晶體結構和強化後的金屬層堆疊之類的。
只不過,為何英特爾只發表 4 核心版本?65W 的 8 核心版本在哪裡?
雖然今年流傳的 4 核 Tiger Lake-U,第 12 代的 Xe 內顯可略勝 Renoir 內的 Vega 8,但絕對不會有人傻傻相信 4 核 Willow Cove 可追上 8 核 Zen 2。偏向消費性產品的筆電,改變市場版圖的所需動量遠不及伺服器,隨時都可風雲變色,屆時天天上演「知名筆電品牌的同樣型號,AMD 版痛扁英特爾版」也不會讓人有一絲一毫意外。
先假裝忘記「啊,英特爾又是被迫一打二」的感慨,我們總得瞧瞧 Willow Cove 和 Xe 究竟是何方神聖。
Willow Cove 大體可視為「配合 SuperFin 電晶體結構最佳化電路設計、擴大 L2 / L3 快取記憶體、追加抵禦間接分支攻擊手段(間接分支追蹤機能,Windows 10 即將支援的 Shadow Stack)」的 Sunny Cove 微幅改良版,會有更高時脈這件事就無需贅述。千篇一律的「小步快跑」,讓筆者連打字都開始感覺漸漸有氣無力。
那麼,英特爾第 12 代(還有人記得 10 奈米首發 Cannon Lake 那跟著 Palm Cove 一同短命殉情的第十代嗎)內顯的技術根基:Xe,又是怎麼回事?坦白講,在尚無大規模(包括消費性獨顯和 HPC 版本)的廣泛效能測試出爐前,筆者下不了什麼結論,但有大量「Optional」功能項目(固定繪圖功能,FP64,Matrix Extension,Rambo Cache,多晶片延展性),企圖藉由更具彈性的 IP 區塊與新世代多晶片封裝技術,以便於打造多樣化的產品線滿足所有市場區隔,倒是顯而易見。
聽說 nVidia 下一代 GPU「Hopper」也將採取 Chiplet 路線,默默進行 EHP 計畫的 AMD 則早已磨刀霍霍,包水餃大戰從 CPU 一路延燒到 GPU 之日,恐將不遠矣。
AMD Renoir 確定只有 8 個 Vega CU,但是……
去年關於 AMD Renoir APU 的眾多謠傳和流出的產品規格,一律指出 Renoir 將具備比前代 Picasso 更多 Vega 繪圖核心(超過 11 個),但 AMD 在 CES 公布的資訊卻讓人大失所望,也不乏「AMD 其實暗藏一手,等著堵英特爾 Tiger Lake」的無責任猜想。
AMD 在 HotChips 32 開獎了:的確從 11 個減少到 8 個,卻換來更高時脈、效能與能耗比。
倍增的內顯匯流排寬度(Inifity Fabric 內當成「血管」的 Scalable Data Fabric)、高 25% 的時脈、多 77% 的峰值記憶體頻寬、縮減 61% 晶片面積,但效能激增 27%,換言之,「晶片效能密度」是前代 225%。最讓人滿臉黑線的是:AMD 原先還只想放 6 個核心,後來才發現在晶片面積與功耗預算內,放 8 個也沒問題,結果就開開心心塞進去了。
不過,事情還沒完。約一個月前,就傳出 AMD 將推出有更多 Vega 繪圖核心(11 個以上)和更多 PCIe(x16)的「Big Renoir」,也就是傳說中的「Lucienne」,當成現有 Renior 的「升級方案」,反正 AMD 就是不想輕易放開苦等多年難得掌握到的技術優勢就對了。
但對筆者來說,看在 Vega 保有 Fluid Motion 補幀功能的分上,能活越久當然越好,據說 Zen 3 世代 APU「Cezanne」內顯也還是 Vega,只希望未來 AMD 願意在 RDNA 繪圖體系,復活這個看動畫的好物。
最後,筆者是不是忘記某人的主題演講了?算了,大家只要記得「No Transistor Left Behind」是英特爾 Xe 繪圖技術的口號就夠了。
(首圖來源:pixabay)