從蘋果 M1 晶片檢視台積電製程的威力
一言以蔽之,一起採用「高效能大核」Firestorm 和「低功耗小核」Icestorm 的蘋果 A14 和 M1 處理器,效能強大的根基,在於至今世界最先進的泛用處理器製程:台積電 5 奈米(N5)。
筆者也在上一篇《從各種角度檢視 Apple Silicon M1 的優劣勢與真正造成的影響》,簡單列出蘋果 M1 和英特爾 Tiger Lake-U(10 奈米 SuperFin)與 AMD Zen 3 CCD(台積電 7 奈米)的電晶體數、晶粒面積、晶片內容物。
只要認真看過那些冷冰冰的數字,並沒有完全拋棄知識、常識和理智,就算再怎麼迷信蘋果「神蹟」的果粉,都不得不承認,台積電的先進製程(以及合作的 EDA 工具廠商)才是這次蘋果 M1 出色跑分數據的根本原因,除了「軟體生態系統純 64 位元」,其他講再多,都只顯得多餘。
但台積電 5 奈米製程的威力究竟有多驚人,就是很值得仔細抽絲剝繭的話題了。我們先比較一下系出同源的 A14 和 M1,看看兩者的差別。
Apple M1 仍未最佳化、電晶體密度精人
從某個小地方也可察覺到蘋果為了節省開發時程,M1 設計其實也未徹底最佳化,像 M1 的 L2 快取從 A14 的 8MB 擴張到 12MB,但只要資料量超過 8MB,性能就會開始下滑,代表那塊多出來的 4MB 是「外掛」的(或講精確一點,快取內部也是會「分區」),或許稱之為「L2.5 快取」會比較符合事實。
總之,只要對數字有點敏感度,這兩者的差別會讓人越想越覺得毛骨悚然:這等於變相顯示,在 31 平方公釐(119~88)面積內,可塞入多達 42 億電晶體(160~118),裡面包括「兩個 Firestorm 核心、4MB L2 快取記憶體、四個 GPU 核心、一個 64 位元 LPDDR4X 記憶體控制器、Thunderbolt 3 和 USB 4」。這根本就是效能頗具水準的系統單晶片了。
這又讓筆者極度好奇,當年盲目追求「簡單、迅速、便宜」的威盛 Centaur 團隊,拚死拚活犧牲一切的效能競爭力,把 x86 處理器的晶粒面積壓縮到 31.7 平方公釐(VIA C7),看到這個景象,會做何感想。算了,P.A Semi 和 Centaur 的「格局、檔次、等級」,本來就天差地遠。
我們再比較一下蘋果、英特爾和 AMD 的相關數字,就會得到更清晰的全貌。因為英特爾很久很久都拒絕透露處理器的電晶體數目和晶粒面積(外界都從照片和論文推測),所以根據已知資料估算,如「10 奈米密度是 14 奈米的 2.7 倍」之類的,但基本上八九不離十。
這裡就可得到不少有趣的結論了。各家廠商都有公佈電晶體密度的理論極限值,但基於各式各樣的因素,實際數據都呈現巨大落差,也或多或少反映不同廠商的製程發展方向。請注意,這張表只有提及「密度」,沒有談到「性能」。
5 奈米下的 M1 高密度電晶體其來何自?
首先,我們很明顯可看到,蘋果靠著台積電 5 奈米獲得的壓倒性電晶體密度。但同樣台積電 7 奈米的蘋果 A13 和 AMD Zen 3 CCD,卻出現驚人的差距,幾乎差了一倍,更何況乍看之下,AMD Zen 3 CCD 結構看似更單純,也有更高比例的 SRAM 快取,應該更利於提高密度,但結果卻適得其反。
不過,有三個理由足以有力解釋這現象:
AMD 是高時脈又兼具同時多執行緒(SMT)的微架構,光考慮功耗問題,就會把密度往下拉,多核心之間的走線也會吃掉一堆空間。
AMD 的 Infinity Fabric 也是關鍵性因素,像 AMD Zen 家族之所以能實作精密電源管理和精細時脈調控,透過 Infinity Fabric 連接 CCD 內龐大近 3 千個感測器(電源、熱量、關鍵路徑)實功不可沒,這些也會影響到電晶體密度。也因此,AMD 新世代消費型繪圖核心旗艦 Navi 21,運行時脈不高,更包含 128MB 容量的 Infinity Cache,但電晶體密度也只有 0.515 億/mm²(268億/520mm²)。
更有可能的高度性假設:蘋果和 AMD 的 7 奈米製程,本來就是「不一樣的東西」,這猜測的真實性,也只有台積電自己才知曉。
反過來說,台積電的製程長期針對手機處理器的低功耗、低成本需求最佳化,電晶體的「效能」能否壓倒英特爾(一直追求極致效能)和三星(手上還有 IBM 高階處理器訂單),也是值得觀察的重點。天下沒有白吃的午餐,雖然台積電的密度遠勝競爭者,但會為此付出的代價,想必 AMD 一定非常關心,也讓人特別期待 AMD Zen 4 世代(台積電 5 奈米)的表現,畢竟蘋果已幫他們「代繳」不少學費了。英特爾是否能順利「轉單」給台積電,更是眾人注目的焦點。
Benchmark 的陷阱
最後,筆者順便談一下先前諸多蘋果 M1 跑分評測的盲點:用懶人愛用的 CineBench R23 單執行緒效能測試,看到 M1 比肩英特爾 Tiger Lake 和 AMD Zen 3,就讓一堆人集體高潮,卻忘記一件非常重要的事:這測試方法根本就沒有充分發揮近代 x86 處理器具備 SMT(同時多執行緒)的實際能耐,封印了 20%~30% 效能。無論英特爾還是 AMD,一啟動 SMT 後,前陣子很「唱秋」的蘋果 M1,馬上被 x86 雙雄甩開,而英特爾 Tiger Lake 的 Willow Cove 微架構,表現更是一枝獨秀,無愧明顯超越 AMD Zen 3 的規格。
照理說,蘋果的自家 ARM 指令集相容處理器微架構,有鑑於內部執行單元也是「寬到不行」,應蘊含讓 SMT 大顯身手、徹底壓榨利用率的潛能。但如同 x86 雙雄須透過個人電腦市場「攤平」研發成本,而難以打造真正為高階伺服器量身訂做的微架構和系統平台(AMD Opteron 全盛期,與 IBM Power 共用系統架構的傳言從來沒停過),會激增耗電量和產品驗證複雜度的 SMT,也難以引進以手機為優先的 Apple Silicon。所以說短期內,蘋果也不是毫無包袱,這場壁壘分明兩陣營的隔空較量,後面還有得瞧。
(首圖來源:蘋果)
留言 1