請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

從蘋果 M1 Max 回顧史上巨無霸處理器:GPU 篇

科技新報

更新於 2021年12月21日14:57 • 發布於 2021年12月22日08:00

前一篇文章欣賞了近代高效能泛用處理器的「巨大存在感」,但在時下一大票人為了「挖礦」瘋狂的世界,一說到本應「著毋庸議」的巨無霸晶片,大概也沒有比 GPU 更有「親切感」的產品了。

更何況蘋果M1 Max的「空照圖」最值得讓人多看幾眼的特色,莫過於「占地甚廣」的32核心GPU功能單元,現在將眼光看向晶粒面積一向大到「理所當然」的高階GPU,順便也讓各位思索一下蘋果M1 Max的GPU,大致屬於怎樣的「檔次」。

▲ 蘋果M1 Max(面積432平方公釐,台積電5奈米製程,570億電晶體)。

但在進入主題之前,先回到1990年代中後期,個人電腦3D遊戲應用剛崛起的古老年代,也請各位先複習一下過往半個多世紀以來的繪圖硬體發展史,替後面的故事做好事前功課。

從這張洋洋灑灑的重大里程碑,可清楚看到推動GPU肥大化的主要推手:GPU通用運算(General Purpose GPU,GPGPU)。GPU通用運算大致可分為幾個時期:

  • 1999年8月31日Nvidia發表GeForce 256(NV10,Celsius微架構),創造了「GPU」(Graphic Processing Unit)看起來好像非常偉大的名詞。Nvidia對GPU一詞的最初技術定義是「整合的 3D 轉換(Transform)、打光(Lighting)、三角設定(Triangle Setup)/裁切(Clipping)與成像引擎(Rendering Engine),每秒能處理至少1千萬個多邊形的單晶片處理器」。講白話點,就是幾何(Geometry)轉換相關的工作就讓顯示晶片自己處理掉,無需勞煩CPU。
  • 1999~2006年「醞釀期」:微軟DirectX 8制定的著色器架構模型(Shader Model),讓GPU具備最基礎的可程式化能力。
  • 2006~2009年「開創期」:微軟DirectX 10的統一著色器架構(Unified Shader)強化GPU使用彈性,並以Nvidia G80(Tesla 1.0微架構)為起點,GPU走向兼具SIMD與MIMD部分優點的SIMT(Single Instruction, Multiple Threads)運算架構,如紡紗機千絲萬縷的執行緒「灌入」拆散後的龐大運算單元。
  • 2009~2010年「熟成期」:以微軟DirectX 11為起點,GPU支援IEEE 754-2008浮點格式,無論單倍還是雙倍精度的浮點乘積和,都成為標準配備,而記憶體ECC等糾錯機制,改善GPU的可靠性,讓GPU更接近CPU,也更適合高效能運算(HPC)。

  • 2010~2016年「實用期」:GPU雙雄Nvidia與AMD一同「黏死」台積電28奈米製程很多年,但這段期間CUDA、OpenCL、OpenMP與OpenACC等應用程式介面也逐漸成熟,克服GPU記憶體容量限制的共用虛擬記憶體,也在這時萌芽。

  • 2016年開始「邁向人工智慧」:為了強化GPU較弱的「推論」與節約記憶體容量開銷,支援FP16 Int8等低精度資料格式,「學習」部分也引進Google BF16(Bfloat16)與Nvidia TF32(TensorFlow 32)等特化資料格式,並擴充專屬功能單元與新增專用指令。此外,高階GPU普遍導入帶來巨量頻寬的HBM2記憶體,並引進新型匯流排以便連接多顆GPU,如Nvidia的NVLink和AMD的Infinity Fabric。

但萬丈高樓平地起,各位讀者也能從本系列首篇了解「原來這些晶片一開始也不是這麼巨大,甚至還要好幾顆才能組成」道理。讓我們再次跳上時光機,回到1995年「還沒有GPU」的年代,重溫3dfx的崛起與隕落,回首Nvidia的機運與緣起。

在大家只需狂衝畫素材質填充率的美好年代

請大家稍微複習一下繪圖管線簡圖。整合幾何轉換硬體單元GPU之前,仍以遊戲為主的消費型3D繪圖晶片,規格競爭的重點指標,只有在光柵輸出階段(Rasterization)的畫素填充率(Pixel Fillrate)與材質填充率(Texel Fillrate),「將畫素/材質處理管線的數量×時脈(或加入會影響實際填充率的記憶體規格)」就成為唯一的「賽豬公」比較基準。

曾以Voodoo系列在1990年代中後期獨領風騷的3dfx,初代產品Voodoo加速卡(SST1),分別由一顆Frame Buffer處理器(FBI)和一顆材質映射單元(TMU)組成。第二代Voodoo 2(SST2)追加第二顆TMU,一個時脈週期可同時繪製兩個材質畫素(Texel)。除了外掛Alliance Semiconductor AT25/AT3D 2D晶片的Voodoo Rush,單晶片方案Voodoo Banshee之前,Voodoo系列產品都不具2D繪圖能力,需搭配一張獨立顯示卡。

從這裡也可了解,因多晶片架構,每顆又都有自己的記憶體,3dfx產品成本結構極為高昂(各位可以回想一下IBM初代Power和Power2),並不利爭取主流市場,也自己搞自家Glide 3D API,留給Nvidia成長空間,蓄意併購Nvidia最大客戶STB斷其後路、讓自己做顯示卡導致「球員兼裁判」的錯誤商業決策,變成壓死3dfx的最後一根稻草。

即使到了公司快破產前的末代產品Rampage,也還是堅持多晶片方案,要外掛另一顆Sage幾何轉換處理器。3dfx如意算盤如下:

從下表即可瞬間了解Rampage與Sage的組合,對上Nvidia GeForce 256恐怕還是凶多吉少,製程比人好,但電晶體多那麼多。況且2018年底,也是3dfx宣布開發Rampage的20年後,《The Legacy of 3dfx》一書作者Oscar Barea,測試手上Rampage顯示卡工程樣品,證實效能對上GeForce 256也占不到任何便宜。

再來瞧瞧這時的Nvidia,在人類第一顆GPU GeForce 256之前,不知故意還是巧合,所有繪圖晶片晶粒面積都統一為90平方公釐(天知道是不是師法追求「簡單、迅速、便宜」的Centaur),這也替Nvidia帶來很大的成本優勢,姑且不論性能如何,一顆小晶片即可取代3dfx的多晶片巨獸,光憑這點就足以保證Nvidia遲早會取代3dfx的龍頭地位。

當然被Nvidia併購後,3dfx遺產都默默消失在世界盡頭。如同外界盛傳的「Sage成為GeForce 4(NV25)幾何引擎、Rampage轉生GeForce 6800(NV40)的Pixel Shader技術基礎」,究竟3dfx有多少「法寶」融入nVidia產品,就只有Nvidia自己知道了。

但3dfx垮台並不代表Nvidia背後就沒有追兵:日後被AMD併購的ATi,Radeon家族前身Rage,以Rage 128系列最具代表性(89平方公釐,800萬電晶體,250奈米製程)。ATi當時普遍定位成「效能比nVidia弱一些,但拿來放影片卻是響噹噹的極品」。ATi搖身一變能與Nvidia分庭抗禮、並值得被AMD巨資買下的最強競爭對手,就是GPU時代初期的故事了。

GPU時代的來臨與ATi發動的逆襲

奠定ATi成為GPU巨強基礎的關鍵戰役,發生在2002~2003年間ATi R300全面擊潰Nvidia NV30,後者歷經多次延宕,結果還是打不過半年前就登場的R300,還鬧出Nvidia為了讓NV30的效能「好看一點」,弄出「僅限於GeForce FX系列」的Demo程式,還在驅動程式動手腳,引爆3DMark03作弊疑雲,也差點毀掉Nvidia驅動程式穩定度的好口碑。

這場屬於ATi的勝利,也確立與Nvidia長期對抗的態勢,直到2006年7月24日,以54億美元價碼被AMD併購為止。

Nvidia會在寄以厚望的NV30重重摔了一跤,原因甚多,但可總結以下幾點:

  • 微軟暗助:那時微軟正因Xbox(晶片報價風波)跟Nvidia交惡,讓ATi提前得知Pixel Shader可採用24位元精度,這讓ATi精簡Pixel Shader設計,更進一步讓每個畫素管線僅擁有一個材質功能單元,將電晶體都砸在可保證提升效能的刀口上,如更多管線與更寬記憶體控制器。相較下Nvidia NV30卻落入「16位元品質不如人,32位元跑得又太慢」窘境。

  • 不務正業:大概是「3dfx Glide怨念上身」,想自己搞自己的提前布局GPGPU,Nvidia 2002年開發Cg(C for Graphics)高階Shader語言,NV30導入自定義的CineFX引擎,讓電晶體數量達前代NV25兩倍,但帳面硬體規格卻輸給R300一大截。

  • 衝得太快:NV30採用當時台積電最先進的130奈米製程,記憶體也提前採三星製造的GDDR2,加上藉由高時脈支撐效能,就發生一連串災難,包括失控的功耗、昂貴的12層走線電路板、被網路鄉民惡搞成「吹風機」的巨大散熱器。

但Nvidia很快亡羊補牢,迅速推出強化版GeForce FX 5900(NV35)和GeForce FX5950(NV38),設法拉近與ATi的差距,且2004年5月4日GeForce 6800 Ultra(NV40),反過來痛打ATi Radeon X800 XT(R420),奪回領先優勢。

然後GPU雙雄的高階產品,晶粒面積也穩定增肥,使動輒超過300平方公釐成為習以為常的常態,一路到2006年11月8日的GeForce GTX 8800(G80)以484平方公釐的驚人尺寸,告訴世人GPGPU即將吹響GPU恐龍化的號角。

同場加映另一間錯過3D浪潮、試圖振衰起蔽的顯示卡廠商:以MGA Milliennium和Mystique聞名於世的加拿大Matrox,充滿傳奇色彩的2D王者。

2002年發表Parhelia系列,帳面有極度暴力的規格,採用聯電150奈米製程,電晶體多達8,000萬,晶粒面積也是巨大的174平方公釐,原引發熱烈期待,但效能表現卻遠遠不如預期,不僅明顯不如更老舊的Nvidia GeForce 4 Ti 4600(NV25),只勉強達到ATi Radeon 8500(R200)和Nvidia GeForce 3(NV20)水準,還不幸直接一頭撞上極度強勢的ATi Radeon 9700 Pro(R300)。

造成Matrox Parhelia失敗的可能原因,大體不外乎驅動程式不夠成熟(除GPU雙雄外所有廠商的共同弱點)、每個畫素管線配置四個材質單元適得其反(大部分遊戲都用不到)、運作時脈太低(250MHz,遠不如R300的325MHz)、欠缺記憶體頻寬節約技術(反觀ATi的第三代Hyper-Z與nVidia第二代的Lightning Memory Architecture)、DirectX只支援到8.1版等等,都斷絕Matrox重返榮耀的一切可能,最終只能靠著多重顯示輸出等特殊功能,站穩一小塊利基市場。

▲ Matrox Parhelia AGP 128 MB。

開啟GPGPU時代的Nvidia

2006年11月8日,nVidia號稱耗費「近5億美元研發經費」與「4年開發時程」,世界首款對應DirectX 10(DirectCompute 4.x)統一著色器(Unified Shader)架構,支援32位元單浮點精確度的GeForce 8系列(以G80為首的Tesla 1.0微架構),為初代CUDA(Compute Unified Device Architecture,統一計算架構)的載具,堪稱是GPU發展史上最大突破,也是Nvidia正式邁入GPGPU的起點。G80還有一個值得大書特書的里程碑:Nvidia GPU的匯流排純原生PCI Express化,甩開AGP過渡期的橋接器,對GPGPU應用也有潛在助益。

Nvidia併購AEGIA而來的PhysX物理引擎,也順勢成功移植到CUDA,代表G80之後的Nvidia GPU均可讓坐在電腦前的人有機會「親自體驗如強烈的爆炸、有互動反應的碎片、逼真的流水,以及栩栩如生的角色等動態」(筆者才疏學淺,實在想不出更生動的描述,就只能原文複製貼上了)。

Nvidia G80問世之後,GPU定義也調整為「由數個兼備SIMD簡易性與MIMD高彈性的單指令多執行緒(SIMT)」核心,組成的單晶片多處理器,利於密集處理大量先天有高平行度且高度同質性的運算工作。」

SIMT的初衷,不外乎希望程式開發模型維持現有的形式,讓SIMD享有接近MIMD的自由度,企圖兼具兩者優點。以上這段「有字天書」看不懂也沒關係,反正只要知道GPU將「撈過界」主宰高效能浮點運算應用需求就夠了。

▲ Nvidia GeForce GTX8800(面積484平方公釐,台積電90奈米製程,6億8,100萬電晶體)。

顛覆ATi GPU技術發展方向的AMD併購案

2006年夏天,AMD以54億美元價碼併購ATi,震動業界,融合CPU與GPU的「Fusion大戰略」,也徹底改變繪圖技術的長期發展方向,更偏向「運算」而非「遊戲」,這到了2018年才漸漸改變

2007年5月14日,AMD初次對應DirectX 10與統一著色器架構的Radeon HD 2900(R600,初代VLIW5的TeraScale微架構)首度支援64位元雙倍浮點精確度,但效能僅單精確度五分之一。走上「超大+超熱+超貴=超生」之路的R600家族,也暫時中斷AMD「恐龍化」GPU、轉向「兩顆打一顆」的另類路線,如同1999年10月,用兩顆Rage 128 Pro組成的Rage Fury MAXX。GPU雙雄從此分道揚鑣。

無獨有偶的,此時AMD也是打算在伺服器CPU市場,用「雙餡水餃」對抗英特爾以排山倒海之勢撲來的鐘擺巨輪,接著AMD就慢慢沉淪,不管CPU還是GPU,兩顆還是打不贏人家一顆,還出現高階產品贏不了對方中階的慘況,陷入超過十年的黑暗期。

▲ AMD(ATi)Radeon HD 2900(面積420平方公釐,台積電80奈米製程,7億2千萬電晶體)。

DirectX 10戰爭2008年還有第二回合,也充分展現GPU雙雄的路線差距。開始支援OpenCL 1.1的AMD Radeon HD 4800 系列(R700)創下單晶片32位元單浮點精確度理論效能達1TFlops的里程碑。R700家族中繼承RV670、率先對應GDDR5記憶體的RV770,因兼備效能與價格競爭力,公認是AMD顯示晶片發展史上罕見的巨大成功。

Nvidia GT200的55奈米製程微縮版GT200B(晶粒面積470平方公釐)「總算」帶來落後AMD將近一年的雙倍浮點精確度,但因「某種因素」,AMD並沒有因此得到什麼好處,就讓我們繼續看下去。

在這裡提醒一件有趣小事,Nvidia自從RivaTNT,就持續致敬知名物理學家(或電腦科學家)姓名,命名不同世代的GPU微架構,但卻無法從晶片名稱看出端倪。Tesla 2.0微架構的GT200將兩者合而為一(舊命名方式則變成晶片代碼,但後來就沒什麼「邏輯性」了),亦可從數字清楚看出同個GPU微架構的不同階段,像是「小改動」還是「大翻修」等。

筆者整理如下表:

說到AMD嘛……進入TeraScale後的「群島」命名只會讓人整理到吐血,到「星座」出現後才稍微好轉,只能寄望RDNA和CDNA分立後,能更簡單明瞭。

讓GPU名正言順接任高效能運算的IEEE 754-2008浮點數規範

截至為止,這些高階GPU看似具越來越強的可程式化能力,但取代CPU的「泛用性」,特別是高效能浮點運算,橫豎眼前仍有巨大的障礙物:完整支援IEEE 754浮點數規範,這也是微軟DirectX 11(DirectCompute 5.0)的重頭戲,過去缺乏遊戲規則(怎麼偷工減料誰也管不著)、由IEEE 754-2008版拍板定案的浮點乘積和(FMA),更是讓GPU從此有個可依循的公定標準,至於浮點運算單元的肥大化,就是GPU雙雄不得不硬扛的甜蜜負擔了。

當代兩位RISC大師合著的計算機結構教科書《計量方法》第五版「引領GPU更大幅接近主流泛用CPU」的重大革新,就即將成為現實,雖然那位贏家(從那時到現在也還沒輸過)踏出這步時,也是出師不利,導入台積電40奈米製程不順,Nvidia的Fermi微架構等於先後出了兩版,Nvidia旗艦GPU晶粒面積超過500平方公釐也成為約定俗成的常識。

AMD仍繼續推動Fusion大戰略,新一代x86處理器微架構Bulldozer(推土機)的雙整數運算核心共用一個浮點運算單元,擺明就是假以時日用GPU取代後者。

2010年12月15日的Radeon HD 6970(Cayman XT,389平方公釐)引進VLIW4格式的第三代TeraScale微架構,將「四個簡單的向量運算單元(4D)加上一個專屬複雜特殊運算的單元」(T Unit)的VLIW5,改造為「四個可處理所有工作的運算單元」(4D T Unit),改善指令排程與執行單元的使用效率,為AMD真正邁向GPGPU的GCN(Graphic Core Next)微架構預作準備。2012年1月9日的28奈米製程Radeon HD 7970(Tahiti XT,352平方公釐)導入第一世代GCN,對AMD來說,這時GPU才正式進入GPGPU的世界。

不過,AMD的GPU發展策略偏「運算」,長期來看對遊戲本業不利,可是畢竟資源有限,依舊只能單一微架構兩邊通吃,當Nvidia開始有餘力分別針對高效能運算和遊戲市場,研發「系出同源的微架構卻分而治之,善盡在本分保持卓越的責任」產品線時,AMD就要倒大楣了。如出一轍的情境,也重現英特爾那時的CPU鐘擺(Tick-Tock)節奏,看過本巨無霸處理器連載第一篇的讀者,都應該很清楚這是什麼意思。

2012年春天,Bulldozer微架構的AMD Opteron(3月20日)和Nvidia的GeForce GTX 680(3月22日)相隔兩天問世,也成為AMD一長串惡夢的開端──CPU和GPU戰線一起崩盤。

nVidia統治高效能運算的起點

今日超級電腦「賽豬公」指標Top500的清單裡,滿滿Nvidia旗艦GPU,早在2012到2014年,就被橫空出世的Kepler微架構奠定了難以撼動的基礎。不論遊戲還是運算,AMD GCN才剛面世沒多久就被Nvidia Kepler一擊K.O.,2015年獨顯市占率跌到歷史新低的「18趴」,一蹶不振到2018年,至今都尚未完全挽回頹勢。

事實上,Nvidia從Tesla到Fermi的GPU微架構,也和併購ATi的AMD一樣,偏「運算」而非「遊戲」,但俗語說的好:魚與熊掌難以兼得,加上Nvidia在40奈米製程的Fermi「燙到」(在尚未熟悉的先進製程打造巨大晶片),索性一改先推出頂規晶片、再一路往下砍規格變出中低階產品線的作風,Kepler微架構先搶灘中階市場,也完全讓運算專用的GPU獨立出來。

另外,Nvidia放棄「高時脈極致效益」的兩倍時脈Shader,轉向激增執行單元規模,正面挑戰AMD行之有年的「低時脈人海戰術」(前面都這麼多張規格比較表了,各位看過一定都會很有感)。受制於有效記憶體頻寬,因自從Nvidia NV40就缺乏更好的記憶體壓縮傳輸機制而不如對手,就算AMD再怎麼「堆高」執行單元,實際反應在效能表現的「效益」還是一直輸給Nvidia一大截,到了2012年,依然不得不業力引爆。新增運算指令和擴張執行單元看似簡單,但能否提供足夠的記憶體頻寬,使之充分發揮,那又是另一回事。歷史已經證明,要達成相近的效能表現,AMD總是需要比Nvidia更充沛的記憶體頻寬。

然後AMD GCN微架構的初代「高階」產品Radeon HD 7970(Tahiti XT)就這樣被Nvidia設定為「中階」的GTX 680(GK104)整個打爆了,這「對Nvidia是驚喜,對AMD是驚嚇」的結果(這段敘述好像也同樣適用於今年的中華職棒總冠軍戰),恐怕連Nvidia自己也深感意外。

2012年11月12日才姍姍來遲的高階GTX 780(GK110,但沒有完全啟用所有功能單元)一舉擴大領先優勢,2014年11月17日的Tesla K80(GK210)更確立Nvidia在高效能運算(HPC)的領先地位,AMD專業運算卡FirePro產品線(以及後繼者Radeon Instinct)就這樣被硬生生打垮。

從2012年初到2016年中旬,Nvidia和AMD均有志一同「黏死」在台積電28奈米製程好幾年(這紀錄日後才被英特爾14奈米牙膏打破),要在進步極度有限的製程擠出更多效能,最暴力也最穩當的手段莫過於讓「遊戲」和「運算」的微架構「兄弟登山,各自努力」。

所以Kepler後繼者Maxwell,被nVidia徹底精鍊成成專攻消費市場的過度時期微架構,以犧牲64位元雙倍浮點精確度的效能為代價,換取1.35倍的單一SP效能和「兩倍」能耗比。前面的Kepler是以中階市場當起點還不打緊,2014年3月22日,Maxwell竟然以售價149美元的GeForce GTX 750 Ti(GM107-400,148平方公釐)在低階市場踏出第一步。

等一下,前面不是才扯一堆「GPU只會越來越肥」,怎麼現在體重又彷彿迴光返照到GPU剛誕生的嬰兒期了?別擔心,電晶體如同生命會自己找出路,Maxwell 2.0的頂規GM200讓nVidia GPU的晶粒面積首度突破600平方公釐大關,中階GM204也逼近400平方公釐。

既然此時此刻的AMD已被Nvidia打到毫無還手之力,也就沒有必要好好比較雙方規格細節的必要性了。

在此也「附贈」AMD六個GCN世代的旗艦晶片,也堪稱是AMD「GPU黑暗期」的象徵。在28奈米製程「加持」下,AMD也將旗艦GPU的面積增加到逼近600平方公釐

但AMD2018年「突然」發表的Vega 20,與背後暗藏的「雙軌戰略」,卻替AMD即將發動的大反擊,埋下充滿懸疑的伏筆。

GPU終極增肥大法:人工智慧

「人工智慧」是今日隨處可見、人人朗朗上口、一沒它就什麼都不對的關鍵名詞,人工智慧的深度學習與推論所需的各式各樣資料格式,結合高效能運算必須的64位元雙倍浮點精確度,催生更複雜的執行單元,也成為讓高階GPU更肥胖的催化劑。

我們先來回顧一下2013年的nVidia GPU產品時程表,原本Maxwell要直接演進到Volta。

但2014年Volta前就冒出Pascal了。擺脫28奈米製程糾纏後,16奈米製程Pascal吹響了眾多GPU重大革新的號角,例如獨立64位元浮點運算單元、支援8位元短整數與16位元短浮點、導入HBM2記憶體、號稱有PCI Express 3.0「5~12倍」效能的NVLink(用來連接IBM Power8處理器)、統合CPU GPU記憶體定址空間並提供需求分頁的Unified Virtual Memory、初代DGX-1深度學習系統等。

講白了,當仔細檢視Pascal後面那個徹頭徹尾為人工智慧量身訂做、兼顧學習和推測、甚至連消費型衍生型號都沒有的Volta,就不難理解Nvidia想小步快跑、降低風險的企圖。

我們就來瞧瞧Volta的執行單元長的什麼樣子,包含五種截然不同的獨立運算功能單元,一個次核心就有16個32位元浮點(FP32,CUDA Core的同義詞)、4個特殊運算(MUFU)、8個64位元浮點(FP64)、16個整數運算(INT)、與2個為人工智慧而生的張量運算核心(Tensor Core)。12奈米製程、電晶體210億、晶粒面積多達815平方公釐的GV100,擁有多達5,120個CUDA Core(SP),是Fermi完全體GF110的「十倍」,由此不難想見GPU進步幅度之快。

言歸正傳,本文主題專注GPU「體重」,如需了解技術演化的細節,像那票煩死人的不同浮點精確度的效能打折比例等,可參閱發表於2017年9月的舊文。讓我們回頭檢視Nvidia歷代旗艦級通用運算GPU的規格,算一算電晶體密度,當成判斷蘋果M1 Max的GPU等級的重要依據。

同樣走上雙軌之路的AMD

不過看在AMD近年企圖重振旗鼓、逐步重返榮耀的份上,也不得不提一下AMD的近況。AMD分別在2018年11月18日和2020年10月28日發表產品定位完全迥異的Vega 20(Radeon Instinct MI60)和Navi 21(Radeon RX 6900 XT)旗艦級GPU,也在2020年財務分析師大會宣示也將「運算」和「遊戲」分成兩個獨立體系:「運算導向的CDNA」與「遊戲優化的RDNA」。

我們再度升起搜尋巨無霸GPU的雷達。嗯,應當起自於128MB第三階Infinity Cache的貢獻,RDNA體系的旗艦Navi 21重回520平方公釐以上水準,真是可喜可賀。

但更讓人感到訝異的是:等了這麼多年,CDNA體系終於展現能與Nvidia旗艦GPU分庭抗禮的潛力。前陣子才發表的Radeon MI200系列,讓AMD首次擁有帳面硬體規格足以壓制Nvidia的武器,未來能否搶走Nvidia A100的生意,就端賴AMD能否有本事突破「CUDA生態系統封鎖網」了。

在此也再次好好比一比旗艦級運算用GPU的規格,讓我們繼續期待明年Top500榜單會有多少Nvidia A100被x86雙雄產品取而代之。

蘋果M1 Max的GPU大概屬於哪個位階?

行文至此,看了這麼多歷史巨無霸GPU,看到眼花撩亂,也該推測蘋果M1 Max GPU,大致上屬於那個「等級」。

我們先假定蘋果的GPU技術水準與微架構設計和AMD Nvidia相去不遠,我們再以電晶體密度粗估M1 Max的GPU換到老舊製程的面積。

M1 Max的5奈米製程電晶體密度約每平方公釐1.32億,略低於相同製程的M1,大致上是GPU雙雄7奈米(台積電)或8奈米(三星)製程產品的2~3倍。

GPU、64MB系統快取記憶體和512位元寬記憶體控制器區塊,大約占M1 Max五成面積(216平方公釐),如此一來,對應的是432~648平方公釐範圍,拿來跟時下旗艦級消費型顯卡比對,和Nvidia GeForce GTX 3090(GA102,628平方公釐,密度每平方公釐4,510萬)和AMD Radeon RX6900 XTX(Navi 21,520平方公釐,密度每平方公釐5,150萬)實屬相近等級,就算考量到時脈的巨大差距(這也會影響到電晶體密度),再差最起碼也該有中階顯卡水準。目前隨處可見的「M1 Max足以匹敵高階顯卡」的評論,就這個角度看,也看似所言不虛,尤其是同樣極度仰賴大型化快取記憶體的AMD RDNA 2.0可為適當的對照組。

也請別忘記,根據傳言,蘋果將有包兩顆M1 Max的Duo版和包四顆的Quadro版,屆時性能將很可能超越GPU雙雄的所有產品,即使比較的立足點並不公平。

假若那天蘋果想不開,想打造自家資料中心的人工智慧加速器,搞不好才是世界最巨無霸的GPU也說不定,雖然假使美夢成真,世人很可能也無從知曉。

(首圖來源:蘋果)

查看原始文章

更多科技相關文章

01

路透:輝達擬提高H200晶片產量 因應中國強勁需求

路透社
02

英特爾已測試涉中晶片設備 外界憂可能用於先進製程

路透社
03

迪士尼10億美元注資OpenAI Sora可使用經典角色

路透社
04

美參議員華倫籲黃仁勳出席聽證 說明川普售中國晶片決策

路透社
05

微軟強化 Windows 11,FSE、ASD 助力遊戲體驗升級

科技新報
06

3大電信影音收視榜揭曉 韓綜台劇動漫3大主力

卡優新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...