從蘋果 M1 Max 回顧史上巨無霸處理器：GPU 篇

前一篇文章欣賞了近代高效能泛用處理器的「巨大存在感」，但在時下一大票人為了「挖礦」瘋狂的世界，一說到本應「著毋庸議」的巨無霸晶片，大概也沒有比 GPU 更有「親切感」的產品了。

更何況蘋果M1 Max的「空照圖」最值得讓人多看幾眼的特色，莫過於「占地甚廣」的32核心GPU功能單元，現在將眼光看向晶粒面積一向大到「理所當然」的高階GPU，順便也讓各位思索一下蘋果M1 Max的GPU，大致屬於怎樣的「檔次」。

▲ 蘋果M1 Max（面積432平方公釐，台積電5奈米製程，570億電晶體）。

但在進入主題之前，先回到1990年代中後期，個人電腦3D遊戲應用剛崛起的古老年代，也請各位先複習一下過往半個多世紀以來的繪圖硬體發展史，替後面的故事做好事前功課。

從這張洋洋灑灑的重大里程碑，可清楚看到推動GPU肥大化的主要推手：GPU通用運算（General Purpose GPU，GPGPU）。GPU通用運算大致可分為幾個時期：

1999年8月31日Nvidia發表GeForce 256（NV10，Celsius微架構），創造了「GPU」（Graphic Processing Unit）看起來好像非常偉大的名詞。Nvidia對GPU一詞的最初技術定義是「整合的 3D 轉換（Transform）、打光（Lighting）、三角設定（Triangle Setup）／裁切（Clipping）與成像引擎（Rendering Engine），每秒能處理至少1千萬個多邊形的單晶片處理器」。講白話點，就是幾何（Geometry）轉換相關的工作就讓顯示晶片自己處理掉，無需勞煩CPU。

1999~2006年「醞釀期」：微軟DirectX 8制定的著色器架構模型（Shader Model），讓GPU具備最基礎的可程式化能力。

2006~2009年「開創期」：微軟DirectX 10的統一著色器架構（Unified Shader）強化GPU使用彈性，並以Nvidia G80（Tesla 1.0微架構）為起點，GPU走向兼具SIMD與MIMD部分優點的SIMT（Single Instruction, Multiple Threads）運算架構，如紡紗機千絲萬縷的執行緒「灌入」拆散後的龐大運算單元。

2009~2010年「熟成期」：以微軟DirectX 11為起點，GPU支援IEEE 754-2008浮點格式，無論單倍還是雙倍精度的浮點乘積和，都成為標準配備，而記憶體ECC等糾錯機制，改善GPU的可靠性，讓GPU更接近CPU，也更適合高效能運算（HPC）。
2010~2016年「實用期」：GPU雙雄Nvidia與AMD一同「黏死」台積電28奈米製程很多年，但這段期間CUDA、OpenCL、OpenMP與OpenACC等應用程式介面也逐漸成熟，克服GPU記憶體容量限制的共用虛擬記憶體，也在這時萌芽。
2016年開始「邁向人工智慧」：為了強化GPU較弱的「推論」與節約記憶體容量開銷，支援FP16 Int8等低精度資料格式，「學習」部分也引進Google BF16（Bfloat16）與Nvidia TF32（TensorFlow 32）等特化資料格式，並擴充專屬功能單元與新增專用指令。此外，高階GPU普遍導入帶來巨量頻寬的HBM2記憶體，並引進新型匯流排以便連接多顆GPU，如Nvidia的NVLink和AMD的Infinity Fabric。

但萬丈高樓平地起，各位讀者也能從本系列首篇了解「原來這些晶片一開始也不是這麼巨大，甚至還要好幾顆才能組成」道理。讓我們再次跳上時光機，回到1995年「還沒有GPU」的年代，重溫3dfx的崛起與隕落，回首Nvidia的機運與緣起。

在大家只需狂衝畫素材質填充率的美好年代

請大家稍微複習一下繪圖管線簡圖。整合幾何轉換硬體單元GPU之前，仍以遊戲為主的消費型3D繪圖晶片，規格競爭的重點指標，只有在光柵輸出階段（Rasterization）的畫素填充率（Pixel Fillrate）與材質填充率（Texel Fillrate），「將畫素／材質處理管線的數量×時脈（或加入會影響實際填充率的記憶體規格）」就成為唯一的「賽豬公」比較基準。

曾以Voodoo系列在1990年代中後期獨領風騷的3dfx，初代產品Voodoo加速卡（SST1），分別由一顆Frame Buffer處理器（FBI）和一顆材質映射單元（TMU）組成。第二代Voodoo 2（SST2）追加第二顆TMU，一個時脈週期可同時繪製兩個材質畫素（Texel）。除了外掛Alliance Semiconductor AT25/AT3D 2D晶片的Voodoo Rush，單晶片方案Voodoo Banshee之前，Voodoo系列產品都不具2D繪圖能力，需搭配一張獨立顯示卡。

從這裡也可了解，因多晶片架構，每顆又都有自己的記憶體，3dfx產品成本結構極為高昂（各位可以回想一下IBM初代Power和Power2），並不利爭取主流市場，也自己搞自家Glide 3D API，留給Nvidia成長空間，蓄意併購Nvidia最大客戶STB斷其後路、讓自己做顯示卡導致「球員兼裁判」的錯誤商業決策，變成壓死3dfx的最後一根稻草。

即使到了公司快破產前的末代產品Rampage，也還是堅持多晶片方案，要外掛另一顆Sage幾何轉換處理器。3dfx如意算盤如下：

從下表即可瞬間了解Rampage與Sage的組合，對上Nvidia GeForce 256恐怕還是凶多吉少，製程比人好，但電晶體多那麼多。況且2018年底，也是3dfx宣布開發Rampage的20年後，《The Legacy of 3dfx》一書作者Oscar Barea，測試手上Rampage顯示卡工程樣品，證實效能對上GeForce 256也占不到任何便宜。

再來瞧瞧這時的Nvidia，在人類第一顆GPU GeForce 256之前，不知故意還是巧合，所有繪圖晶片晶粒面積都統一為90平方公釐（天知道是不是師法追求「簡單、迅速、便宜」的Centaur），這也替Nvidia帶來很大的成本優勢，姑且不論性能如何，一顆小晶片即可取代3dfx的多晶片巨獸，光憑這點就足以保證Nvidia遲早會取代3dfx的龍頭地位。

當然被Nvidia併購後，3dfx遺產都默默消失在世界盡頭。如同外界盛傳的「Sage成為GeForce 4（NV25）幾何引擎、Rampage轉生GeForce 6800（NV40）的Pixel Shader技術基礎」，究竟3dfx有多少「法寶」融入nVidia產品，就只有Nvidia自己知道了。

但3dfx垮台並不代表Nvidia背後就沒有追兵：日後被AMD併購的ATi，Radeon家族前身Rage，以Rage 128系列最具代表性（89平方公釐，800萬電晶體，250奈米製程）。ATi當時普遍定位成「效能比nVidia弱一些，但拿來放影片卻是響噹噹的極品」。ATi搖身一變能與Nvidia分庭抗禮、並值得被AMD巨資買下的最強競爭對手，就是GPU時代初期的故事了。

GPU時代的來臨與ATi發動的逆襲

奠定ATi成為GPU巨強基礎的關鍵戰役，發生在2002~2003年間ATi R300全面擊潰Nvidia NV30，後者歷經多次延宕，結果還是打不過半年前就登場的R300，還鬧出Nvidia為了讓NV30的效能「好看一點」，弄出「僅限於GeForce FX系列」的Demo程式，還在驅動程式動手腳，引爆3DMark03作弊疑雲，也差點毀掉Nvidia驅動程式穩定度的好口碑。

這場屬於ATi的勝利，也確立與Nvidia長期對抗的態勢，直到2006年7月24日，以54億美元價碼被AMD併購為止。

Nvidia會在寄以厚望的NV30重重摔了一跤，原因甚多，但可總結以下幾點：

微軟暗助：那時微軟正因Xbox（晶片報價風波）跟Nvidia交惡，讓ATi提前得知Pixel Shader可採用24位元精度，這讓ATi精簡Pixel Shader設計，更進一步讓每個畫素管線僅擁有一個材質功能單元，將電晶體都砸在可保證提升效能的刀口上，如更多管線與更寬記憶體控制器。相較下Nvidia NV30卻落入「16位元品質不如人，32位元跑得又太慢」窘境。
不務正業：大概是「3dfx Glide怨念上身」，想自己搞自己的提前布局GPGPU，Nvidia 2002年開發Cg（C for Graphics）高階Shader語言，NV30導入自定義的CineFX引擎，讓電晶體數量達前代NV25兩倍，但帳面硬體規格卻輸給R300一大截。
衝得太快：NV30採用當時台積電最先進的130奈米製程，記憶體也提前採三星製造的GDDR2，加上藉由高時脈支撐效能，就發生一連串災難，包括失控的功耗、昂貴的12層走線電路板、被網路鄉民惡搞成「吹風機」的巨大散熱器。

但Nvidia很快亡羊補牢，迅速推出強化版GeForce FX 5900（NV35）和GeForce FX5950（NV38），設法拉近與ATi的差距，且2004年5月4日GeForce 6800 Ultra（NV40），反過來痛打ATi Radeon X800 XT（R420），奪回領先優勢。

然後GPU雙雄的高階產品，晶粒面積也穩定增肥，使動輒超過300平方公釐成為習以為常的常態，一路到2006年11月8日的GeForce GTX 8800（G80）以484平方公釐的驚人尺寸，告訴世人GPGPU即將吹響GPU恐龍化的號角。

同場加映另一間錯過3D浪潮、試圖振衰起蔽的顯示卡廠商：以MGA Milliennium和Mystique聞名於世的加拿大Matrox，充滿傳奇色彩的2D王者。

2002年發表Parhelia系列，帳面有極度暴力的規格，採用聯電150奈米製程，電晶體多達8,000萬，晶粒面積也是巨大的174平方公釐，原引發熱烈期待，但效能表現卻遠遠不如預期，不僅明顯不如更老舊的Nvidia GeForce 4 Ti 4600（NV25），只勉強達到ATi Radeon 8500（R200）和Nvidia GeForce 3（NV20）水準，還不幸直接一頭撞上極度強勢的ATi Radeon 9700 Pro（R300）。

造成Matrox Parhelia失敗的可能原因，大體不外乎驅動程式不夠成熟（除GPU雙雄外所有廠商的共同弱點）、每個畫素管線配置四個材質單元適得其反（大部分遊戲都用不到）、運作時脈太低（250MHz，遠不如R300的325MHz）、欠缺記憶體頻寬節約技術（反觀ATi的第三代Hyper-Z與nVidia第二代的Lightning Memory Architecture）、DirectX只支援到8.1版等等，都斷絕Matrox重返榮耀的一切可能，最終只能靠著多重顯示輸出等特殊功能，站穩一小塊利基市場。

▲ Matrox Parhelia AGP 128 MB。

開啟GPGPU時代的Nvidia

2006年11月8日，nVidia號稱耗費「近5億美元研發經費」與「4年開發時程」，世界首款對應DirectX 10（DirectCompute 4.x）統一著色器（Unified Shader）架構，支援32位元單浮點精確度的GeForce 8系列（以G80為首的Tesla 1.0微架構），為初代CUDA（Compute Unified Device Architecture，統一計算架構）的載具，堪稱是GPU發展史上最大突破，也是Nvidia正式邁入GPGPU的起點。G80還有一個值得大書特書的里程碑：Nvidia GPU的匯流排純原生PCI Express化，甩開AGP過渡期的橋接器，對GPGPU應用也有潛在助益。

Nvidia併購AEGIA而來的PhysX物理引擎，也順勢成功移植到CUDA，代表G80之後的Nvidia GPU均可讓坐在電腦前的人有機會「親自體驗如強烈的爆炸、有互動反應的碎片、逼真的流水，以及栩栩如生的角色等動態」（筆者才疏學淺，實在想不出更生動的描述，就只能原文複製貼上了）。

Nvidia G80問世之後，GPU定義也調整為「由數個兼備SIMD簡易性與MIMD高彈性的單指令多執行緒（SIMT）」核心，組成的單晶片多處理器，利於密集處理大量先天有高平行度且高度同質性的運算工作。」

SIMT的初衷，不外乎希望程式開發模型維持現有的形式，讓SIMD享有接近MIMD的自由度，企圖兼具兩者優點。以上這段「有字天書」看不懂也沒關係，反正只要知道GPU將「撈過界」主宰高效能浮點運算應用需求就夠了。

▲ Nvidia GeForce GTX8800（面積484平方公釐，台積電90奈米製程，6億8,100萬電晶體）。

顛覆ATi GPU技術發展方向的AMD併購案

2006年夏天，AMD以54億美元價碼併購ATi，震動業界，融合CPU與GPU的「Fusion大戰略」，也徹底改變繪圖技術的長期發展方向，更偏向「運算」而非「遊戲」，這到了2018年才漸漸改變。

2007年5月14日，AMD初次對應DirectX 10與統一著色器架構的Radeon HD 2900（R600，初代VLIW5的TeraScale微架構）首度支援64位元雙倍浮點精確度，但效能僅單精確度五分之一。走上「超大＋超熱＋超貴＝超生」之路的R600家族，也暫時中斷AMD「恐龍化」GPU、轉向「兩顆打一顆」的另類路線，如同1999年10月，用兩顆Rage 128 Pro組成的Rage Fury MAXX。GPU雙雄從此分道揚鑣。

無獨有偶的，此時AMD也是打算在伺服器CPU市場，用「雙餡水餃」對抗英特爾以排山倒海之勢撲來的鐘擺巨輪，接著AMD就慢慢沉淪，不管CPU還是GPU，兩顆還是打不贏人家一顆，還出現高階產品贏不了對方中階的慘況，陷入超過十年的黑暗期。

▲ AMD（ATi）Radeon HD 2900（面積420平方公釐，台積電80奈米製程，7億2千萬電晶體）。

DirectX 10戰爭2008年還有第二回合，也充分展現GPU雙雄的路線差距。開始支援OpenCL 1.1的AMD Radeon HD 4800 系列（R700）創下單晶片32位元單浮點精確度理論效能達1TFlops的里程碑。R700家族中繼承RV670、率先對應GDDR5記憶體的RV770，因兼備效能與價格競爭力，公認是AMD顯示晶片發展史上罕見的巨大成功。

Nvidia GT200的55奈米製程微縮版GT200B（晶粒面積470平方公釐）「總算」帶來落後AMD將近一年的雙倍浮點精確度，但因「某種因素」，AMD並沒有因此得到什麼好處，就讓我們繼續看下去。

在這裡提醒一件有趣小事，Nvidia自從RivaTNT，就持續致敬知名物理學家（或電腦科學家）姓名，命名不同世代的GPU微架構，但卻無法從晶片名稱看出端倪。Tesla 2.0微架構的GT200將兩者合而為一（舊命名方式則變成晶片代碼，但後來就沒什麼「邏輯性」了），亦可從數字清楚看出同個GPU微架構的不同階段，像是「小改動」還是「大翻修」等。

筆者整理如下表：

說到AMD嘛……進入TeraScale後的「群島」命名只會讓人整理到吐血，到「星座」出現後才稍微好轉，只能寄望RDNA和CDNA分立後，能更簡單明瞭。

讓GPU名正言順接任高效能運算的IEEE 754-2008浮點數規範

截至為止，這些高階GPU看似具越來越強的可程式化能力，但取代CPU的「泛用性」，特別是高效能浮點運算，橫豎眼前仍有巨大的障礙物：完整支援IEEE 754浮點數規範，這也是微軟DirectX 11（DirectCompute 5.0）的重頭戲，過去缺乏遊戲規則（怎麼偷工減料誰也管不著）、由IEEE 754-2008版拍板定案的浮點乘積和（FMA），更是讓GPU從此有個可依循的公定標準，至於浮點運算單元的肥大化，就是GPU雙雄不得不硬扛的甜蜜負擔了。

當代兩位RISC大師合著的計算機結構教科書《計量方法》第五版「引領GPU更大幅接近主流泛用CPU」的重大革新，就即將成為現實，雖然那位贏家（從那時到現在也還沒輸過）踏出這步時，也是出師不利，導入台積電40奈米製程不順，Nvidia的Fermi微架構等於先後出了兩版，Nvidia旗艦GPU晶粒面積超過500平方公釐也成為約定俗成的常識。

AMD仍繼續推動Fusion大戰略，新一代x86處理器微架構Bulldozer（推土機）的雙整數運算核心共用一個浮點運算單元，擺明就是假以時日用GPU取代後者。

2010年12月15日的Radeon HD 6970（Cayman XT，389平方公釐）引進VLIW4格式的第三代TeraScale微架構，將「四個簡單的向量運算單元（4D）加上一個專屬複雜特殊運算的單元」（T Unit）的VLIW5，改造為「四個可處理所有工作的運算單元」（4D T Unit），改善指令排程與執行單元的使用效率，為AMD真正邁向GPGPU的GCN（Graphic Core Next）微架構預作準備。2012年1月9日的28奈米製程Radeon HD 7970（Tahiti XT，352平方公釐）導入第一世代GCN，對AMD來說，這時GPU才正式進入GPGPU的世界。

不過，AMD的GPU發展策略偏「運算」，長期來看對遊戲本業不利，可是畢竟資源有限，依舊只能單一微架構兩邊通吃，當Nvidia開始有餘力分別針對高效能運算和遊戲市場，研發「系出同源的微架構卻分而治之，善盡在本分保持卓越的責任」產品線時，AMD就要倒大楣了。如出一轍的情境，也重現英特爾那時的CPU鐘擺（Tick-Tock）節奏，看過本巨無霸處理器連載第一篇的讀者，都應該很清楚這是什麼意思。

2012年春天，Bulldozer微架構的AMD Opteron（3月20日）和Nvidia的GeForce GTX 680（3月22日）相隔兩天問世，也成為AMD一長串惡夢的開端──CPU和GPU戰線一起崩盤。

nVidia統治高效能運算的起點

今日超級電腦「賽豬公」指標Top500的清單裡，滿滿Nvidia旗艦GPU，早在2012到2014年，就被橫空出世的Kepler微架構奠定了難以撼動的基礎。不論遊戲還是運算，AMD GCN才剛面世沒多久就被Nvidia Kepler一擊K.O.，2015年獨顯市占率跌到歷史新低的「18趴」，一蹶不振到2018年，至今都尚未完全挽回頹勢。

事實上，Nvidia從Tesla到Fermi的GPU微架構，也和併購ATi的AMD一樣，偏「運算」而非「遊戲」，但俗語說的好：魚與熊掌難以兼得，加上Nvidia在40奈米製程的Fermi「燙到」（在尚未熟悉的先進製程打造巨大晶片），索性一改先推出頂規晶片、再一路往下砍規格變出中低階產品線的作風，Kepler微架構先搶灘中階市場，也完全讓運算專用的GPU獨立出來。

另外，Nvidia放棄「高時脈極致效益」的兩倍時脈Shader，轉向激增執行單元規模，正面挑戰AMD行之有年的「低時脈人海戰術」（前面都這麼多張規格比較表了，各位看過一定都會很有感）。受制於有效記憶體頻寬，因自從Nvidia NV40就缺乏更好的記憶體壓縮傳輸機制而不如對手，就算AMD再怎麼「堆高」執行單元，實際反應在效能表現的「效益」還是一直輸給Nvidia一大截，到了2012年，依然不得不業力引爆。新增運算指令和擴張執行單元看似簡單，但能否提供足夠的記憶體頻寬，使之充分發揮，那又是另一回事。歷史已經證明，要達成相近的效能表現，AMD總是需要比Nvidia更充沛的記憶體頻寬。

然後AMD GCN微架構的初代「高階」產品Radeon HD 7970（Tahiti XT）就這樣被Nvidia設定為「中階」的GTX 680（GK104）整個打爆了，這「對Nvidia是驚喜，對AMD是驚嚇」的結果（這段敘述好像也同樣適用於今年的中華職棒總冠軍戰），恐怕連Nvidia自己也深感意外。

2012年11月12日才姍姍來遲的高階GTX 780（GK110，但沒有完全啟用所有功能單元）一舉擴大領先優勢，2014年11月17日的Tesla K80（GK210）更確立Nvidia在高效能運算（HPC）的領先地位，AMD專業運算卡FirePro產品線（以及後繼者Radeon Instinct）就這樣被硬生生打垮。

從2012年初到2016年中旬，Nvidia和AMD均有志一同「黏死」在台積電28奈米製程好幾年（這紀錄日後才被英特爾14奈米牙膏打破），要在進步極度有限的製程擠出更多效能，最暴力也最穩當的手段莫過於讓「遊戲」和「運算」的微架構「兄弟登山，各自努力」。

所以Kepler後繼者Maxwell，被nVidia徹底精鍊成成專攻消費市場的過度時期微架構，以犧牲64位元雙倍浮點精確度的效能為代價，換取1.35倍的單一SP效能和「兩倍」能耗比。前面的Kepler是以中階市場當起點還不打緊，2014年3月22日，Maxwell竟然以售價149美元的GeForce GTX 750 Ti（GM107-400，148平方公釐）在低階市場踏出第一步。

等一下，前面不是才扯一堆「GPU只會越來越肥」，怎麼現在體重又彷彿迴光返照到GPU剛誕生的嬰兒期了？別擔心，電晶體如同生命會自己找出路，Maxwell 2.0的頂規GM200讓nVidia GPU的晶粒面積首度突破600平方公釐大關，中階GM204也逼近400平方公釐。

既然此時此刻的AMD已被Nvidia打到毫無還手之力，也就沒有必要好好比較雙方規格細節的必要性了。

在此也「附贈」AMD六個GCN世代的旗艦晶片，也堪稱是AMD「GPU黑暗期」的象徵。在28奈米製程「加持」下，AMD也將旗艦GPU的面積增加到逼近600平方公釐。

但AMD2018年「突然」發表的Vega 20，與背後暗藏的「雙軌戰略」，卻替AMD即將發動的大反擊，埋下充滿懸疑的伏筆。

GPU終極增肥大法：人工智慧

「人工智慧」是今日隨處可見、人人朗朗上口、一沒它就什麼都不對的關鍵名詞，人工智慧的深度學習與推論所需的各式各樣資料格式，結合高效能運算必須的64位元雙倍浮點精確度，催生更複雜的執行單元，也成為讓高階GPU更肥胖的催化劑。

我們先來回顧一下2013年的nVidia GPU產品時程表，原本Maxwell要直接演進到Volta。

但2014年Volta前就冒出Pascal了。擺脫28奈米製程糾纏後，16奈米製程Pascal吹響了眾多GPU重大革新的號角，例如獨立64位元浮點運算單元、支援8位元短整數與16位元短浮點、導入HBM2記憶體、號稱有PCI Express 3.0「5~12倍」效能的NVLink（用來連接IBM Power8處理器）、統合CPU GPU記憶體定址空間並提供需求分頁的Unified Virtual Memory、初代DGX-1深度學習系統等。

講白了，當仔細檢視Pascal後面那個徹頭徹尾為人工智慧量身訂做、兼顧學習和推測、甚至連消費型衍生型號都沒有的Volta，就不難理解Nvidia想小步快跑、降低風險的企圖。

我們就來瞧瞧Volta的執行單元長的什麼樣子，包含五種截然不同的獨立運算功能單元，一個次核心就有16個32位元浮點（FP32，CUDA Core的同義詞）、4個特殊運算（MUFU）、8個64位元浮點（FP64）、16個整數運算（INT）、與2個為人工智慧而生的張量運算核心（Tensor Core）。12奈米製程、電晶體210億、晶粒面積多達815平方公釐的GV100，擁有多達5,120個CUDA Core（SP），是Fermi完全體GF110的「十倍」，由此不難想見GPU進步幅度之快。

言歸正傳，本文主題專注GPU「體重」，如需了解技術演化的細節，像那票煩死人的不同浮點精確度的效能打折比例等，可參閱發表於2017年9月的舊文。讓我們回頭檢視Nvidia歷代旗艦級通用運算GPU的規格，算一算電晶體密度，當成判斷蘋果M1 Max的GPU等級的重要依據。

同樣走上雙軌之路的AMD

不過看在AMD近年企圖重振旗鼓、逐步重返榮耀的份上，也不得不提一下AMD的近況。AMD分別在2018年11月18日和2020年10月28日發表產品定位完全迥異的Vega 20（Radeon Instinct MI60）和Navi 21（Radeon RX 6900 XT）旗艦級GPU，也在2020年財務分析師大會宣示也將「運算」和「遊戲」分成兩個獨立體系：「運算導向的CDNA」與「遊戲優化的RDNA」。

我們再度升起搜尋巨無霸GPU的雷達。嗯，應當起自於128MB第三階Infinity Cache的貢獻，RDNA體系的旗艦Navi 21重回520平方公釐以上水準，真是可喜可賀。

但更讓人感到訝異的是：等了這麼多年，CDNA體系終於展現能與Nvidia旗艦GPU分庭抗禮的潛力。前陣子才發表的Radeon MI200系列，讓AMD首次擁有帳面硬體規格足以壓制Nvidia的武器，未來能否搶走Nvidia A100的生意，就端賴AMD能否有本事突破「CUDA生態系統封鎖網」了。

在此也再次好好比一比旗艦級運算用GPU的規格，讓我們繼續期待明年Top500榜單會有多少Nvidia A100被x86雙雄產品取而代之。

蘋果M1 Max的GPU大概屬於哪個位階？

行文至此，看了這麼多歷史巨無霸GPU，看到眼花撩亂，也該推測蘋果M1 Max GPU，大致上屬於那個「等級」。

我們先假定蘋果的GPU技術水準與微架構設計和AMD Nvidia相去不遠，我們再以電晶體密度粗估M1 Max的GPU換到老舊製程的面積。

M1 Max的5奈米製程電晶體密度約每平方公釐1.32億，略低於相同製程的M1，大致上是GPU雙雄7奈米（台積電）或8奈米（三星）製程產品的2~3倍。

GPU、64MB系統快取記憶體和512位元寬記憶體控制器區塊，大約占M1 Max五成面積（216平方公釐），如此一來，對應的是432~648平方公釐範圍，拿來跟時下旗艦級消費型顯卡比對，和Nvidia GeForce GTX 3090（GA102，628平方公釐，密度每平方公釐4,510萬）和AMD Radeon RX6900 XTX（Navi 21，520平方公釐，密度每平方公釐5,150萬）實屬相近等級，就算考量到時脈的巨大差距（這也會影響到電晶體密度），再差最起碼也該有中階顯卡水準。目前隨處可見的「M1 Max足以匹敵高階顯卡」的評論，就這個角度看，也看似所言不虛，尤其是同樣極度仰賴大型化快取記憶體的AMD RDNA 2.0可為適當的對照組。

也請別忘記，根據傳言，蘋果將有包兩顆M1 Max的Duo版和包四顆的Quadro版，屆時性能將很可能超越GPU雙雄的所有產品，即使比較的立足點並不公平。

假若那天蘋果想不開，想打造自家資料中心的人工智慧加速器，搞不好才是世界最巨無霸的GPU也說不定，雖然假使美夢成真，世人很可能也無從知曉。

（首圖來源：蘋果）

請更新您的瀏覽器

科技

科技新報