先進模型需要高效能的基礎架構,得以有效拓展 AI 訓練、微調及推論的工作負載,同時提升系統效能並創造最大成本效益。Google 專為 AI 量身打造的加速器 TPU(Tensor Processing Unit),已來到第六代 Trillium TPU。
TPU 不僅為 Google 搜尋、相簿及地圖等服務提供運算支援,也促成科學領域的突破,包含去年取得諾貝爾化學獎殊榮、可預測蛋白質結構的 AlphaFold 2 模型。
最新的 Trillium TPU,每個晶片的尖峰效能相較前一代提升 4.7 倍,推論處理量最多增加為原來的 3 倍,而能源效率則提升 67%。不只如此,Trillium TPU 針對如 Llama 2 70B 和 GPT3 175B 等密集語言模型的訓練速度,相較前一代提升達 4 倍。
隨著 Google 邁入Gemini 2.0 新階段,朝能夠獨立完成複雜任務的 AI 代理(Agent)前進,Trillium TPU 更扮演關鍵角色,用於訓練一系列 Gemini 2.0 模型。其中,Trillium TPU 近線性擴充能力(near-linear scaling capabilities)可讓模型高效且精準的分配工作負載,大幅提高訓練速度。
▲ Trillium TPU。(Source:Google)
事實上,光靠硬體無法發揮運算潛力,更要與系統做搭配。為此 Google 以多年經驗開發出整合式 AI Hypercomputer 架構,無縫整合 AI 工作負載所需的軟硬體。如下圖所示,大致可分成下層效能最佳化的硬體(包含 TPU、GPU、CPU)、中層開放軟體、上層如計費模型等,為先進模型提供強大支援。
▲ AI Hypercomputer 架構。(Source:Google Blog)
Trillium TPU 是 Google 目前最具成本效益的 TPU,不僅效能強大,也能節省運算過程的能源消耗,為省下成本。自 2024 年 12 月起,Trillium TPU 已提供給所有雲端客戶使用。
由於 AI 工作負載沒有一體適用的解決方案,除 TPU 外,Google 基礎設施也有硬體方面的策略合作夥伴,包含 NVIDIA、AMD、英特爾、Arm 等,提供雲端客戶選擇、滿足算力和成本等各式需求。
(首圖來源:影片截圖)
留言 0