聯發科與 Google 合作 TPU,賺了獲利還使得優化天璣處理器技能大增
Google即將推出的 Ironwood TPU v7,已經成為業界首款足以挑戰輝達(NVIDIA)Blackwell GPU 的專用客製化晶片(ASIC)。這項重大事件吸引了業界對Google TPU 設計流程及其合作夥伴的密切關注,特別是與國內IC設計大廠聯發科的合作。其中,聯發科也正將其在此次合作中獲得的經驗,轉化為其手機行動處理器的實質效率提升,預計將從即將推出的天璣(Dimensity) 9600行動處理器開始,使得市場也特別期待。
挑戰輝達的Ironwood TPU v7 的卓越性能與架構
業界對 Google Ironwood TPU v7 的熱烈關注,源自於其在 AI 工作執行上的高效能和低成本優勢。Google的這款新 TPU 在推論(inferencing)任務方面極具競爭力,特別是在產業正從大型基礎 AI 訓練模型轉向推論任務的重要性日益增加之際。事實上,TPU v7 Ironwood 在提供與輝達最新 GPU 幾乎不相上下的性能的同時,但卻還擁有更低的總體擁有成本(TCO)。
TPU v7 Ironwood 採用先進的雙晶片(dual-chiplet)設計。每個晶片包含以下關鍵組成部分,這些設計均針對 AI 運算進行了優化:
1.TensorCore:採用脈動陣列(systolic array)架構,用於高效的矩陣乘法運算。矩陣乘法構成了 AI 工作執行的基礎,包括神經網路的訓練與推論。該設計透過大幅減少對高頻寬記憶體(HBM)的記憶體讀寫次數,來實現高效率。
2.向量處理單元(VPU):處理 AI 模型所需的通用、元素級操作,例如啟動函數(如 ReLU)和常規化(normalizations)。
3.矩陣乘法單元(MXU):專門處理矩陣乘法運算。
4.兩個SparseCores:用於高效處理需要不規則、數據依賴性記憶體存取的用例。這包括處理被稱為嵌入的超大數學結構,嵌入是將大型分類特徵值(如詞彙表)轉化為較小、密集向量表示的關鍵 AI 步驟。
在記憶體與互連方面,TPU 搭配 96 GB 的高頻寬記憶體(HBM)。雙晶片間透過晶片到晶片(D2D)互連技術連接,其速度比線型晶片間互連(ICI)鏈路快 6 倍。基本的晶片配置被稱為立方體(cube),這些晶片透過 ICI 連接,為每個晶片提供 1.2 TB/s 的雙向 ICI 頻寬。多個立方體進一步透過光學電路開關(OCS)網路連接,組成一個巨大的超級Pod,該超級Pod 由 9,216 個晶片和 144 個立方體組成。
聯發科的角色:I/O 模組設計與 40 億美元潛在收益
聯發科在設計 Google TPU v7 Ironwood 中扮演了至關重要的角色。根據 2025 年 3 月流出的報告,Google委託聯發科設計 Ironwood 的 輸入/輸出(I/O)模組,以便於處理器與周邊設備之間的通訊。值得注意的是,這一合作模式代表著Google近年策略的轉變。在過去幾年,Google設計下一代 TPU 的整體架構通常是與博通(Broadcom)緊密合作完成的。聯發科這次參與設計 I/O 模組,顯示其技術實力受到了Google的認可。
而根據外資瑞銀(UBS)最近的報告預估顯示,聯發科有望透過這次與Google在下一代 TPU 上的合作,獲得高達 40 億美元的收益。
聯發科經驗傳承為 Dimensity 9600 效能醍醐灌頂
儘管 ASIC(例如 Ironwood TPU)與 Dimensity 9600 這樣的行動應用處理器(AP)在設計目標上本質有所不同,聯發科仍能將其在 TPU v7 Ironwood 計畫中學到的經驗,轉化為其行動晶片的數項精進的技術,從而顯著提升 Dimensity 9600 的效率。
這些改進主要集中在電源管理和功耗控制策略上,包括更高效的功率閘控(Power Gating)策略。聯發科將能制定更高效的功率閘控策略,讓 AP 在不使用特定 I/O 區塊時,能更積極地將其關閉。另外,改進電壓調節(Voltage Scaling)。透過改進電壓調節,允許 AP 消耗最有效率的電壓量,進而優化晶片的功耗指標。最後是時脈閘控(Clock-Gating)調整。聯發科透過調整現有的時脈閘控策略,以改善下一代晶片的電池續航力,並爭取更積極的功耗預算。
這些效率上的微調對於聯發科的行動 AP 產品至關重要,特別是因為聯發科已在其行動 AP 架構中取消了效率核心(efficiency cores)。此外,聯發科據報也在開發自己的 AI 晶片,屆時其在 TPU 方面的經驗將具有更高的直接相關性。
(首圖來源:科技新報攝)