從首次線上直播的 Hot Chips 32,回顧摩爾定律的鈍化與「雙 I」擠牙膏近代史

科技新報 更新於 07月10日15:14 • 發布於 07月10日15:30

再長的隧道,走到底,終將看到盡頭的光芒。再多的牙膏,擠到底,終將換成全新的一條。

從 1989 年至今,固定每年夏天舉辦的處理器產業界盛事 Hot Chips,今年第 32 屆(8 月 16~18 日)因武漢肺炎,改成首次線上直播,無緣重現去年 1,700 名與會者的盛況,這對不少人心目中「處理器業界最好的技術研討會」,不啻是個令人惋惜的遺憾。

畢竟 Hot Chips(與春季 COOL Chips)是 IEEE(電機電子工程師學會)掛名的研討會,晶片廠商趁機「宣揚國威」,展現有別於技術行銷簡報的內容深度。理所當然,也有那種內容很沒誠意、大部分和一般活動沒啥兩樣,如某間知名的「摩爾定律牙膏廠」,更有那種全世界都超想看到他們上台(參加 ISSCC 就更要放煙火了),像最近宣布要用自家晶片取代牙膏廠的那家,卻遲遲不見蹤影。

提醒一下,天下沒有白吃的午餐,別以為線上活動就能看免錢。看在本屆不用花大錢飛到美國還要搞定麻煩的交通住宿的份上,搞不好今年共襄盛舉的人數會有爆炸性成長。假如沒絕對必要,頂多就像懶惰的筆者,躺在家裡裝死,等著官網年底放上影片和簡報就夠了,不必太認真,一認真起來,你的荷包就要像三峽大壩那樣洩洪了。

但 Hot Chips 32 壟罩在武漢肺炎的陰霾下是一回事,5 月底預先公布的議程,赫然出現以下主題,讓人眼睛一亮:

當筆者搭捷運用手機盯著剛發表的議程,霎時眼前一陣模糊……不對,是不小心沒戴好口罩,所以眼鏡起霧了。

根本不是定律的摩爾定律

說到家喻戶曉的摩爾定律,總讓筆者回想起某集《呆伯特》漫畫的劇情。

老闆:「我聽說幹我們這一行,每天都要工作 16 小時才有競爭力。」

呆伯特:「那我們就這樣放話,競爭對手就會沒日沒夜跟我們拚命到底。」

老闆:「難道這是真的?」

呆伯特:「我們自己差點就上當了。」

世人都耳熟能詳由英特爾(Intel)創辦人之一發明的「摩爾定律」:積體電路的電晶體數量,從 12 個月(最初版)到 24 個月(官方文宣)中間取平均值的 18 個月,就會翻倍一次,也成為英特爾這間創社超過半世紀公司的「登山寶訓」,英特爾也公認是這條「不是定律的定律」的最大受益者。

曾經有人戲稱:摩爾定律存在目的在於「保障半導體產業工程師的生活品質」,反正只要達標,即可交差了事。少了摩爾定律這條終點線,大家都會卯起來拚個天荒地老,半導體產業的進步速度只會更快。

不過,當半導體製程微縮的程度到達奈米等級(一根頭髮的直徑約是 30,000~50,000 奈米,這比喻讓人比較有感)之後,相關研究領域的複雜度如火箭直衝天際,這種飄飄然的觀點,就只會惹來一堆專業人士白眼,最起碼,爆肝工程師一定很有意見。

近來傳聞英特爾預定 2021 年量產 7 奈米製程,可能將重蹈 10 奈米覆轍,就有人這樣評論:越來越少美國人願意去做先進製程研發這種苦差事。觀台積電靠著 24 小時研發三班制的「夜鷹計畫」,以 10 奈米製程為起點,一舉趕超英特爾和三星。也難怪也有人這樣感慨:以後半導體產業的從業人員,恐怕只有「吃苦耐勞的亞洲人」。

摩爾第二定律:先進半導體製程的成本只會越來越高

但你知道還有另一條預言「晶圓廠的建造成本呈現指數型成長,每隔 4 年就會倍增」的「摩爾第二定律」嗎?這當然不是 Golden Moore 說的,而是由說服 Sherman Fairchild 成立快捷半導體(Fairchild Semiconductor)的 Arthur Rock 所創造,也稱為「洛克定律」(Rock's Law)。相較於近似「預言」的摩爾第一定律,這條追加版,更像經過長期觀察趨勢後的總結。

1986 年,英特爾製造 25 萬電晶體的 386 處理器,晶圓廠耗資 2 億美元。十年後,英特爾生產 600 萬電晶體的 Pentium 處理器(這裡應指 550 萬核心電晶體的 Pentium Pro),所需相關設備則是十倍的 20 億美元。然後呢?

直接影響也很簡單:「摩爾定律第一定律」就此鈍化。

專注於晶圓代工的台積電,剛剛好就是摩爾第二定律的象徵:2019 年資本支出為 140 億至 150 億美元,2020 年則增加到 150 億至 160 億美元。80% 用在 7 奈米/5 奈米/3 奈米先進製程,10% 投入先進封裝與光罩,剩下 10% 挹注特殊製程技術。

以台積電位於中科的 Fab 15 為例,從 2010 年動工到 2012 年量產 28 奈米到演進至 7 奈米,陸續投入超過 3 千億台幣資金,也就相當於 100 億美元。2018 年在南科興建的 5 奈米 12 吋晶圓廠 Fab 18,總投資金額更高達 250 億美元,約台幣 7,500 億元。這種以「百億美元」為基本單位的軍備競賽,玩得起的廠商只會越來越少。

隨著 2018 年格芯(Global Foundries)無限期擱置 7 奈米製程,牌桌上的玩家只剩下台積電、三星和英特爾碩果僅存的「御三家」,且其中兩家看起來好像也頗掙扎的樣子。

種種因素導致先進製程的成本持續水漲船高。從 7 奈米開始,引進 EUV 更讓微影光刻設備成本高達前代 2 倍,這些多出來的費用當然都轉嫁到寄給客戶的帳單。從 AMD 已披露的資料推算,7 奈米電晶體密度可達 14 奈米 1.7 倍,但單位電晶體的成本仍不減反增,選擇 Chiplet 多晶片封裝路線,實乃不得不然。近年來,新型多晶片封裝技術的發展(如台積電 CoWos 和 InFo,英特爾的 EMIB、Foveros、Co-EMIB 與 ODI,可參考《【x86 興衰史】AMD 翻身有望?英特爾規格製程擠牙膏與 AMD 的躍進》一文)亦方興未艾,或多或少意味著眾人將準備迎接摩爾定律的終點。

不只放棄蓋廠,連自研晶片都快玩不下去

反過頭來,隨著製程節點進步,先進製程研發也跟著建廠費用一路節節高升,並不是這幾年突然發生的現象,從 1990 年代末期就越來越多老玩家(像 DEC 這種從處理器研發、晶圓廠、系統製造都整套自己來的大公司,通常是第一波倒下的)選擇退坑不玩。就算自己不生產晶片,伺服器與個人電腦需要的先進高效能處理器,架構複雜度也是持續水漲船高,全部反應在漫長的開發時程、高昂的研發開銷、高升的驗證成本、激增的溫度功耗。

像英特爾初代 Pentium 4(2000 年,研發開案的時間點可倒推至 1995 年)就號稱燒了 10 億美元與動員 5 千人工程團隊,而 IBM Power9 系列(2017~2020 年)更是駭人聽聞的 30 億美元(應包含伺服器整體架構和相關軟硬體,但也夠嚇人了)。英特爾令人髮指的 14 奈米「牙膏秀」這幾年,一顆衍生自現有核心微架構的處理器晶片,如某種核心數量與快取記憶體配置的獨特晶粒,據聞也須耗資「5 千萬美元開發費」與「3,200 萬美元驗證費」,就更不用提開光罩的開銷和後繼生產成本了。

不講高效能泛用處理器,就瞧瞧「看來結構較單純,乍看之下易於延展」的繪圖晶片好了,開創 GPGPU 先河的 nVidia G80(Tesla 1.0)也是「4 年研發期(2002~2006 年)花掉 5 億美元」。

總而言之,高效能泛用處理器(特別是連微架構都翻新的初代產品),入門費也衝上「10 億」美元的歷史新高。要降低研發費用並兼顧高性能,「運用成熟技術」與「技術供應鏈」就是唯一的最佳解答。「豐富的 IP 區塊授權+成熟的電子輔助晶片設計工具+專業的晶圓代工」三位一體商務模式就是這樣崛起,分工合作,各司其職。

除了多如繁星的消費性電子產品系統單晶片(智慧手機為代表),最近一舉奪下超級電腦 Top500 的 Fujitsu A64FX 堪稱最佳例證,將「電腦的語言」從 SPARC 轉向 ARM 就是如此不同,但塞滿尖端科技的高階產品如 A64FX,從開案到量產,也不少於 4 年。

這也是從 1990 年代中期之後,x86 指令集相容處理器能夠逐步由下往上爬、主宰高效能處理器的主因:巨大且快速成長的個人電腦市場,分擔了英特爾和 AMD 研發與建廠的巨大開銷,並成為進一步將勢力範圍延伸到伺服器的雄厚本錢。在個人電腦年度出貨量到達「1 億台」歷史大關的 1998 年,英特爾發表伺服器專用的 Xeon 品牌,完完全全是歷史的必然,毫無一絲一毫巧合。

Mac 一年出貨量不到 2 千萬台,蘋果「膽敢」推動 Apple Silicon 取代英特爾的 x86 指令集相容處理器,憑的也是一年 2 億 6 千萬支 iPhone 和 5 千萬台 iPad 的基本盤。但儘管如此,貨真價實的高效能設計(可爭奪 Top500、SPEC CPU 和 TPC 霸權的那種,安兔兔可差遠了)對蘋果「應該」還是極度陌生的領域,雖然外界無法知悉蘋果究竟做了多少前置準備,仍讓人替蘋果感到些許擔憂與淡淡不安。

時至今日,高效能處理器市場,從 1980 年代的百家爭鳴發展,不算入 ARM 體系,今日也僅剩 IBM(Power、z 系列大型主機)、英特爾(x86)、AMD(x86,是否重新投入 ARM 仍有待證實)、Fujitsu(GS 系列大型主機、SPARC、ARM)這 4 家。昔日 Sun 的 UltraSPARC?被 Oracle 購併多年後,跟著傳奇作業系統 Solaris 殉情了。

各類花式擠牙膏的必然性

以上就是英特爾從 2014 年開始猛擠 14 奈米製程牙膏、IBM 放緩 Power 與 z 系列處理器發展步調(也許得同場加映 nVidia 的 GPU)的時代背景:既然羊毛出在羊身上,沒從獲利回收灑出去的投資之前,不是設法延長產品壽命,要不然就是「小步快跑」持續進行換湯不換藥的小幅改款。

這樣看來,似乎擠牙膏連擠多年的英特爾很值得同情。只不過,當各位看到英特爾這幾年來因癡迷物聯網、人工智慧和自駕車,而生氣亂買公司的金額,大概所剩無幾的「同理心」就瞬間揮發得一點不剩了。

比較知名的購併案如下,有些比較不重要的就不提了。

  • 2015 年:Altera,167 億美元。

  • 2016 年:Nervana,3.5 億美元,這已確定是一無所獲的失敗收購。

  • 2016 年:Movidius,金額不明。

  • 2017 年:Mobileye,153 億美元。

  • 2018 年:eASIC,金額不超過 3 億美元,併入 FGPA 部門。

  • 2019 年:Habana Labs,20 億美元。另一間軟體定義網路(SDN)晶片新創企業 Barefoot 則金額不明,算是英特爾跟 nVidia 競爭 Mellanox 失敗後的彌補措施。

  • 2020 年:Moovit,10 億美元。

 

筆者對這一串購併的唯一個人評論:就算再有閒錢,也不敢坐上「Intel Inside」的自駕車。

步調依舊穩定但越來越緩慢的藍色巨人

身為高階伺服器的絕對王者,IBM 兩條處理器產品線,想必老一輩的 IT 人都不陌生,但筆者還是替大家複習一下:

  • CISC(複雜指令集電腦)的 z 系列:起源於 1964 年「人類歷史上最大規模的商用產品開發計畫」(1960 年的 50 億美元相當於今日 430 億美元)IBM S/360 大型主機(Mainframe),後代也開創了無數計算機工業的第一次,包含相同指令集架構的電腦可軟體相容、微碼控制單元、軟碟機(用來存放微碼)、虛擬化、快取記憶體、「1 Byte(位元組)=8 Bits(位元)」的工業標準、虛擬記憶體、非循序指令執行及預測執行能力,堪稱近代電腦技術發展的縮影。
  • RISC(精簡指令集電腦)的 Power 系列:源自 1974 年啟動的 IBM 801 迷你電腦計畫,再經過 1982 年 Cheetah 和 1985 年 America,在 1990 年發展成 Power。2001 年上市的 Power4 處理器,不僅是人類歷史上首顆原生雙核心泛用處理器,更具歷史意義的是:Power4 相容 IBM 所有當代 RISC 指令集,包含 PowerPC、RS/6000 和 AS/400,也奠定 Power 穩坐高階 RISC 處理器之王的地位,或許更該說,也只剩下 IBM 有餘力繼續比氣長,老對手都一個個陣亡了。

時下這兩者的共同點只有一個:產品世代之間相隔越拉越長,儘管 IBM 以 Power6 和 z10 為起點,設法統一兩邊設計,以節約研發開銷,還是躲不過摩爾第二定律的詛咒。

擠 Power9 擠了好多年終於擠出 Power10

再來看看 IBM 是怎麼「擠」Power9 這條高貴的牙膏。

  • 2016 年 8 月 Hot Chips。

  • 2017 年 4 月 COOL Chips。

  • 2018 年 8 月 Hot Chips。

  • 2019 年 9 月 Hot Chips。

那打從一開始,IBM 的原始計畫又如何?IBM 還曾打算「開放合作夥伴使用其他晶圓代工廠 10 奈米/7 奈米製程」(99% 是三星)授權生產的 Power8 和 Power9(黃色部分)提供「OpenPower」生態系統之用,那結果呢?

當然是自動消失了,要不然呢?你真以為那些「認真評估」甚至「少量部署」IBM Power 處理器的雲端服務業者,不是只想把這個當成跟英特爾、AMD 殺價的籌碼嗎?

IBM 就這樣一路從 Power9 SO(Scale-Out,增加運算節點的水平擴展)、Power9 SU(Scale-Up,堆高處理器核心數量的垂直擴展)、Power9 AIO(Advanced I/O,激增記憶體頻寬),不間斷微幅改進這顆先後後耗資 30 億美元的「地球最強大伺服器處理器」,充滿了一堆令一般人深感匪夷所思的恐怖規格與產品價格。

但單純論單處理器的核心數量,IBM 也早就看不到英特爾和 AMD 的車尾燈了,更何況,AMD 從 2017~2019 年,從 14 奈米製程的 Zen 到 7 奈米製程的 Zen 2,EPYC 大躍進式的核心數成長,Power9 的核心微架構再厲害,區區 12 個 SMT8 大核或 24 個 SMT4 小核,也抵不過 AMD 的 64 核 SMT2 人海戰術。

要徹底介紹 Power9,沒用一篇萬字專文搞不定,如果讀者有興趣了解全貌,可參考筆者 2018 年發表於癮科技的簡文

以記憶體擴充性和外部 I/O 規格為最大差異點,歷代 Power9 處理器簡介如下:

  • Power9 SO:最大雙處理器組態,直連 8 通道 DDR4 記憶體,最高容量 4TB,120GB/s 理論頻寬。

  • Power9 SU:最大 16 處理器組態,透過 8 通道緩衝晶片(DMI,Differential Memory Interface)提供加倍 8TB 容量和 230GB/s 理論頻寬。

  • Power9 AIO:最大 16 處理器組態,採用發展自「開放規範,並有可能成為 JEDEC 標準」的 OMI(Open Memory Interface)記憶體模組(Microchip PM8596 控制器),記憶體容量/理論頻寬再激增至 8TB / 650GB/s 或 64TB / 320GB/s,並新增 OpenCAPI 4.0 介面。

老妖怪「魔神 z」最新成員:z15

將鏡頭轉向支撐 IBM 伺服器事業部門獲利的 z 系列大型主機。基於半個多世紀以來,對於要求頂級穩定性(如每個月固定的薪資轉帳日造成的巨量 I/O 壓力)、極致可靠度(毫不容許停機時間)與軟體相容性(你確定今天金融業和保險業的 MIS 還看得懂幾十年前用 COBOL 語言寫的程式嗎),IBM 大型主機業務幾乎是無可替代的獨門生意,除了「請你公司的核心帳務系統整個砍掉重練的大型主機換機專案」,沒有正面挑戰的對手。

也因此,IBM 按照自己的節奏,穩定推出讓客戶升級的解決方案,即可功德圓滿。

但 IBM 曾在 2018 年底宣布下一代 Power 與 z 處理器,將採用三星 7 奈米 EUV(極紫外線光刻)製程(相當於台積電預定生產 AMD Zen3 的 N7+),而早在 2019 年底上市的 z15 仍停在 14 奈米(可能時程趕不及,大型主機這種頂規產品的產品驗證期都超級長),就看看讓眾人等待已久的 Power10 能否藉由三星的「嶄新製程」帶給大家驚喜了。咦,這張三星的簡報怎麼看起來怪怪的?

擠牙膏擠到天怒人怨的英特爾

英特爾從 2014 年就開始從一年一度的「鐘擺」(Tick-Tock)轉向「新製程(Process)→新架構(Architecture)→最佳化(Optimization)」三段論。

以延宕已久的英特爾 10 奈米製程來說好了:

  • 新製程(Process):2018 年 Cannon Lake 當前期驗證,「Palm Cove」核心加入 AVX-512 指令集,而僅雙核的 Core i3-8121U 則淪落為毫無存在感的短命產品。

  • 新架構(Architecture):2019 年 Ice Lake 引入「Sunny Cove」核心,但初期導入的產品線也限於筆記型電腦,核心數也最多 4 核。好吧,伺服器導向的 Ice Lake-SP 快要問世了。

  • 最佳化(Optimization):2020 年 Tiger Lake 有更好的「Willow Cove」核心與 Xe 世代繪圖技術,但目前已知最大組態也僅 4 核,人家 AMD 的 7 奈米 APU 早就 8 核。

英特爾還曾「溯及既往」的「逆向發明」更早的三段論,頗有「明朝的劍斬清朝的官」的味道:

  • 新製程:2014 年 Broadwell。

  • 新架構:2015 年 Skylake。

  • 最佳化:連續猛擠 5 年牙膏。

真是讓當年還深信英特爾會堅守鐘擺承諾的人們情何以堪,領先業界「三年半」的技術優勢,一下子統統不見了。

這張簡報就是英特爾擠 14 奈米製程牙膏的鐵證,賴都賴不掉,14 奈米 P1272 足足從 2014 年撐到 2021 年。

行文至此,筆者實在很懶得再浪費篇幅贅述英特爾這間公司「擠牙膏」的豐功偉業,一張「典範轉移史」就足以勝過千言萬語。

總算看得到 Ice Lake-SP 了

至於英特爾的「現金母牛」Xeon 產品線,從 2017 年到現在,14 奈米製程歷代產品的改良幅度也極為有限,甚至明顯不如 IBM Power9(這樣講當然有點不公平,IBM 手握高度垂直系統整合的封閉優勢,自然比較有本錢想做什麼就做什麼,這也將是蘋果全面處理器自研化的王牌):

  • Skylake→Cascade Lake:AVX-512 指令集新增「人工智慧推論最佳化」的 VNNI,重點在於 INT8 / INT16 短整數,順便補上原本就該對應的 Optane 記憶體模組(代號 Apache Pass)。

  • Cascade Lake→Cooper Lake:再追加「人工智慧學習最佳化」的 BF16 浮點格式,接著再上演身為全新 Xeon 平台 Whitley 先鋒的 Cooper Lake-SP,因不明原因慘遭腰斬的脫線番外篇,偏偏架構較新的 Ice Lake-SP 又沒 BF16,像 Facebook 這些需要 BF16 的超級大客戶,請乖乖使用多處理器版本的 Cooper Lake-P。

坦白講,先不提產品本身的優勝劣敗,伺服器和資料中心市場本身有很大的「動量」,一踏進去就很難馬上被趕出來(AMD 的 Opteron 生命末期也是苦撐很久),考量到英特爾在「商業手段」(產品套餐、行銷補助)和「生態系統」(技術支援、產品選擇)依舊享有壓倒性優勢,AMD 要重回過去 30% 的高峰,還是相當困難。

但假若 AMD 迫使英特爾透過降價或回扣(Rebate)等商業手段,來維持市占率,這必然傷害獲利能力,自然也降低研發預算和資本支出,尤其是所費不貲、卻非得設法重振旗鼓的尖端半導體製程技術與先進晶圓廠的建造費用。俗話說的好,天下沒有白吃的午餐,出來混的,總是要還。

等了多年,筆電處理器總算有點看頭

無論猛擠牙膏的英特爾還是重返農藥的 AMD,這些年來,筆電處理器一直缺乏讓筆者打起精神的有趣話題。年初登場的 AMD 7 奈米製程 Renoir APU,與腳步聲越來越近的「10 奈米製程最佳化架構」(前述三段論的第三部分)英特爾 Tiger Lake,總算讓筆者不再無聊。

我們再將焦點轉向英特爾和 AMD 即將爆發激戰的筆電處理器,相對於伺服器,筆電市場更有可能短期內風雲變色。據說英特爾為了「懲罰」因 14 奈米製程處理器缺貨,而被迫增加 AMD 機種數量的筆電大廠,變相加速客戶流失的腳步是吧?

兩家廠商同場較勁,但觀察重點只有兩個:

  • AMD Renoir APU 的繪圖核心,是不是只有 8 個(盛傳實際將多達 13~15 個)。

  • 英特爾 Tiger Lake 處理器核心,是不是只有 4 個(8 核心將成為筆電的新賣點)。

 

差點忘了,Tiger Lake 還有一個亮點:全新世代的繪圖核心。

隨著英特爾與美國能源部合作的 Aurora 超級電腦計畫,英特爾 2019 年 3 月公開了 GPU 架構正式名稱「Xe」和「軟體堆疊」OneAPI。2019 年 5 月公布首顆整合 Xe 架構 GPU 的 Tiger Lake,預計 2020 下半年上市,距離現在也不遠了。

英特爾 2019 年 11 月的 SC19 進一步宣布用於高效能運算與人工智慧的「Ponte Vecchio」Xe 架構 GPU,並公布讓人聯想到 NVIDIA DGX-2 的系統架構示意圖。

關於 Tiger Lake 的繪圖效能,英特爾從 AMD 挖角 Raja Koduri 並四處招兵買馬,企圖重建 GPU 技術基礎而誕生的 Xe 繪圖引擎(以及那個 OneAPI),技術細節和實際性能,也注定將吸引大量目光。但投資人更在意的是:重生後的英特爾獨立顯示晶片,會不會變成台積電生產的產品?

意外的花絮:「處理器遊俠」Jim Keller 擔綱的主題演講

原先本屆 Hot Chips 第一天,會有一場由英特爾 Jim Keller 擔綱的主題演講,但他本人卻在 6 月初因個人因素立即離職生效,故陣前換將成主導英特爾 GPU 的 Raja Koduri。假使能多談談英特爾的 GPU 布局,而不是擠牙膏擠到天荒地老的 CPU,對關注 Hot Chips 的任何人,也不是什麼壞事就是了。

擠了多年的牙膏終究有擠完的一天,讓我們繼續期待下一條牙膏能擠多長多久。再仔細端倪全部議程後,結論就是今年的 Hot Chips 將會非常精彩,請各位拭目以待。

(首圖來源:pixabay

查看原始文章