請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Arm Unlocked Taipei 2025:從雲端到邊緣的AI運算平台策略

T客邦

更新於 2025年11月21日18:07 • 發布於 2025年11月13日07:09 • 國寶大師 李文恩

繼先前在亞太區域4個城市之後,Arm於2025年11月13日在台北舉行壓軸場Arm Unlocked Taipei 2025大會,分享對於AI產業的觀察與產品規劃。

繼先前在亞太區域4個城市之後,Arm於2025年11月13日在台北舉行壓軸場Arm Unlocked Taipei 2025大會,分享對於AI產業的觀察與產品規劃。

多層面強化AI效能

Arm日前於Unlocked中國上海場次發表了全新Lumex CSS平台,其中包含C1系列處理器(CPU)與Mali G1系列繪圖處理器(GPU),前者支援能夠加速矩陣與AI運算的SME 2指令集,後者則帶來更強悍的繪圖與AI運算效能。更多詳細說明請參考下方相關報導。

延伸閱讀:
Arm發表全新Lumex CSS平台,C1 CPU與Mali G1 GPU為旗艦級手機帶來25%效能增長
Arm Lumex CSS平台搭配全新C1系列處理器,4種型號隨意混搭最高14核心效能怪獸
Arm Lumex CSS平台Mali-G1系列繪圖處理器與平台功能解析,為旗艦級智慧型手機帶來2倍光線追蹤效能

Arm終端產品事業部產品管理資深總監Stefan Rosinger在《塑造智慧消費性電子的未來:Arm 終端產品藍圖》主題演說中再次介紹Lumex CSS平台以及C1 CPU與Mali G1 GPU的特色,並補充系統IP與軟體堆疊等資訊,筆者將現場簡報整理於下。

Arm終端產品事業部產品管理資深總監Stefan Rosinger在《塑造智慧消費性電子的未來:Arm 終端產品藍圖》主題演說中介紹全新Lumex CSS平台特色。

▲ Arm終端產品事業部產品管理資深總監Stefan Rosinger在《塑造智慧消費性電子的未來:Arm 終端產品藍圖》主題演說中介紹全新Lumex CSS平台特色。

Arm透過Neoverse(資料中心)、Zena(智慧車輛)、Lumex(行動裝置)、Niva(個人電腦)、Orbis(物聯網)等產品線滿足差異化的AI運算需求。

▲ Arm透過Neoverse(資料中心)、Zena(智慧車輛)、Lumex(行動裝置)、Niva(個人電腦)、Orbis(物聯網)等產品線滿足差異化的AI運算需求。

CSS平台以中的C1 CPU較前代產品有雙位數百分比的IPC(Instructions per Cycle,每周期指令)效能成長,並支援能帶來5倍AI效能的SME 2指令集。Mali G1 GPU在繪圖與AI部分的效能成長幅度也達到雙位數百分比,光線追蹤效能則達到2倍。

▲ CSS平台以中的C1 CPU較前代產品有雙位數百分比的IPC(Instructions per Cycle,每周期指令)效能成長,並支援能帶來5倍AI效能的SME 2指令集。Mali G1 GPU在繪圖與AI部分的效能成長幅度也達到雙位數百分比,光線追蹤效能則達到2倍。

4款新CPU中,由C1-Ultra與C1-Premium接替先前Cortex-X925的型號,而C1-Pro與C1-Nano則分別接替Cortex-A725與Cortex-A520。。

▲ 4款新CPU中,由C1-Ultra與C1-Premium接替先前Cortex-X925的型號,而C1-Pro與C1-Nano則分別接替Cortex-A725與Cortex-A520。。

Arm預估到了2030年,SME與SME2指令集將為超過30億台裝置提供總量達到100億TOPS的AI運算效能。

▲ Arm預估到了2030年,SME與SME2指令集將為超過30億台裝置提供總量達到100億TOPS的AI運算效能。

Stefan Rosinger也補充了系統IP的優勢,SI L1系統互連能夠降低75%互連延遲,MMU L1記憶體管理單元最多可以降低83% TBU(Translation Buffer Unit,轉譯緩衝單元)延遲。

▲ Stefan Rosinger也補充了系統IP的優勢,SI L1系統互連能夠降低75%互連延遲,MMU L1記憶體管理單元最多可以降低83% TBU(Translation Buffer Unit,轉譯緩衝單元)延遲。

全新Lumex CSS平台相容於多間晶圓代工廠的2、3 nm製程節點,可以帶來更出色的PPA(Performance、Power、Area,效能、省電、尺寸)優勢。

▲ 全新Lumex CSS平台相容於多間晶圓代工廠的2、3 nm製程節點,可以帶來更出色的PPA(Performance、Power、Area,效能、省電、尺寸)優勢。

Arm也在由韌體、虛擬機器、核心、函數庫與執行環境、運算框架、應用程式等軟體堆疊的多個環節導入SME 2支援,提升AI運算的效能表現。

▲ Arm也在由韌體、虛擬機器、核心、函數庫與執行環境、運算框架、應用程式等軟體堆疊的多個環節導入SME 2支援,提升AI運算的效能表現。

改善Windows on Arm效能與

Arm首席應用工程師余志誠在《Windows on Arm應用程式效能與可靠性的實務知識》主題演說中,提到軟體最佳化對Windows on Arm使用者體驗的重要性,並介紹Arm提供的多種資源,協助開發者將應用程式移植為原生Arm版本,以展現更高的執行效能並提高筆記型電腦的電池續航力。

Arm首席應用工程師余志誠在《Windows on Arm應用程式效能與可靠性的實務知識》主題演說中介紹原生Arm架構應用程式的優勢。

▲ Arm首席應用工程師余志誠在《Windows on Arm應用程式效能與可靠性的實務知識》主題演說中介紹原生Arm架構應用程式的優勢。

Arm與Microsoft提供多種程式開發工具、工具鏈(Toolchain)、運算框架來簡化原生Arm架構應用程式的開發流程。

▲ Arm與Microsoft提供多種程式開發工具、工具鏈(Toolchain)、運算框架來簡化原生Arm架構應用程式的開發流程。

原生Arm架構應用程式(紅線)在處理器佔用率與記憶體使用量都低於x86模擬器(藍線),有助於帶來更流暢的使用體驗。

▲ 原生Arm架構應用程式(紅線)在處理器佔用率與記憶體使用量都低於x86模擬器(藍線),有助於帶來更流暢的使用體驗。

在同時使用視訊、視訊特效、螢幕分享、語音等繁重負載的情況下,x86模擬器(藍線)的耗電量大約為原生Arm架構應用程式(紅線)的1.95倍,可見原生Arm架構應用對於筆記型電腦的電池續航力有很大的幫助。

▲ 在同時使用視訊、視訊特效、螢幕分享、語音等繁重負載的情況下,x86模擬器(藍線)的耗電量大約為原生Arm架構應用程式(紅線)的1.95倍,可見原生Arm架構應用對於筆記型電腦的電池續航力有很大的幫助。

Arm與Microsoft也提供豐富的線上學習資源,協助開發者能夠瞭解程式最佳化的概念與實作方式,進而達成將應用程式移植為原生Arm版本。

▲ Arm與Microsoft也提供豐富的線上學習資源,協助開發者能夠瞭解程式最佳化的概念與實作方式,進而達成將應用程式移植為原生Arm版本。

3種運算單元各展所長

Arm資深產品經理Vahan Ter- Grigotyan在《橫跨 CPU 與 GPU:打造無所不在的裝置端人工智慧》主題演說中說明不同運算單元的特性,分析CPU、GPU、NPU(神經處理器)所擅長的使用情境。

CPU具有最高的普及率,基本上所有裝置都有CPU,有利於將AI應用程式推廣給最多數的使用者。雖然它的架構並非最有利於AI運算常用的矩陣迭代運算,但是具有最佳軟體彈性,能夠在不需更新硬體的前提下相容最新的AI模型或是資料類型,而且在運作過程具有無需資料搬移、即時運算等優勢,延遲低於其他種類運算單元。

而GPU則有次高的普及率,大多數的智慧型手機、平板電腦都具有GPU,可程式化的特性讓它具備較好的軟體相容性,適合應用於高強度AI運算或與圖像相關的AI應用程式。

NPU的普及率比較低,部分中、低階智慧型手機、平板電腦可能不會搭載NPU,但是它具有為矩陣迭代運算需求特化的架構,具有相對出色的AI運算效能與電力效率,適合需要長時間或於背景執行的AI功能。

Arm資深產品經理Vahan Ter- Grigotyan在《橫跨 CPU 與 GPU:打造無所不在的裝置端人工智慧》主題演說中說明CPU、GPU、NPU等運算單元的特性。

▲ Arm資深產品經理Vahan Ter- Grigotyan在《橫跨 CPU 與 GPU:打造無所不在的裝置端人工智慧》主題演說中說明CPU、GPU、NPU等運算單元的特性。

CPU適合應用於小型、低延遲的AI運算負載,GPU適合與圖像相關應用,NPU則適合各類AI負載。

▲ CPU適合應用於小型、低延遲的AI運算負載,GPU適合與圖像相關應用,NPU則適合各類AI負載。

CPU具有高度普及與高軟體相容性等優勢,能夠達到「Develop once deploy everywhere」(寫一次程式即可部署到任何裝置)的優勢。

▲ CPU具有高度普及與高軟體相容性等優勢,能夠達到「Develop once deploy everywhere」(寫一次程式即可部署到任何裝置)的優勢。

大多數的智慧型手機、平板電腦都具有GPU,也很適合用於AI應用。

▲ 大多數的智慧型手機、平板電腦都具有GPU,也很適合用於AI應用。

Vahan Ter- Grigotyan補充相較於遊戲應用,透過GPU進行AI運算所消耗的記憶體電力大約相差5倍,因此改善記憶體的運作效率與功耗也相當重要。

▲ Vahan Ter- Grigotyan補充相較於遊戲應用,透過GPU進行AI運算所消耗的記憶體電力大約相差5倍,因此改善記憶體的運作效率與功耗也相當重要。

CPU、GPU、NPU等運算單元在代理式AI運算的不同階段能夠各展所長。

▲ CPU、GPU、NPU等運算單元在代理式AI運算的不同階段能夠各展所長。

利如Google相簿中的橡皮擦功能也利用了CPU、GPU等運算單元。

▲ 利如Google相簿中的橡皮擦功能也利用了CPU、GPU等運算單元。

總結來說,CPU適合對記憶體延遲敏感的負載,GPU適合與影像相關的應用,NPU適合高度量化與重複的推論工作。

▲ 總結來說,CPU適合對記憶體延遲敏感的負載,GPU適合與影像相關的應用,NPU適合高度量化與重複的推論工作。

Arm除了在消費性產品中提供完整的運算系統與解決方案,在資料中心、智慧車輛、物聯網等使用情境也都有推出對應的產品,滿足各種不同量體與使用情境的AI運算需求。

想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@

查看原始文章

更多科技相關文章

01

三星AI裝置拚翻倍 8億台產品搭載Gemini

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...