一覽處理器廠商的「人工智慧推論加速單元」：智慧手機篇（下）

繼上一篇〈一覽處理器廠商的「人工智慧推論加速單元」：智慧手機篇（上）〉介紹了「御三家」：高通（Qualcomm）、聯發科（MediaTek）和蘋果（Apple）手機系統單晶片內建的人工智慧推論輔助處理器，這次聚焦市場其他參賽者：三星（Samsung）、華為海思（Hisilicon）、紫光展銳（Unisoc）及「Android 大本家」Google。

但請讓筆者先澆冷水：假若各位期待以下內容會像上期精彩絕倫、同樣波瀾壯闊，那可能會讓人大失所望，因以上四家共同特色就是「不是資料太少，就是幾乎沿用現成技術」，所以筆者也不會太過著墨技術，會多談點商業背景和應景時事，以便充實各位的人生。

「站在巨人肩膀上卻好像站不太穩旗艦手機」的三星獵戶座

市調機構 Canalys 7 月發表第二季全球智慧手機出貨量報告，比去年同期下跌 11%，前五大手機品牌依序為三星（21%）、蘋果（17%）、小米（13%）、OPPO（10%）、vivo（8%）和 2022 年同期相去無幾，三星繼續穩坐出貨量冠軍寶座，全盛時期年銷售量超過「3 億支」。全球手機出貨量創十年新低的今年第一季，僅三星靠年初發表 Galaxy S23 系列產品帶動買氣（手持 S23 Ultra 的筆者有幸躬逢其盛），出貨量達 6,150 萬台，比 2022 年第四季增加 5.5%，成為唯一正成長的手機品牌。

照理說，如此巨大市占率和出貨量，也理所當然成為三星厚植自家手機晶片（包含基頻、影像感測器、面板、低功耗動態記憶體、快閃記憶體和一堆有的沒有）研發實力的肥沃土壤，協助三星半導體部門搶占市場（包括其他手機品牌，像 vivo 就用了不少三星行動處理器），且能降低料件成本。

▲ 三星這頁 2021 年簡報透露不少有趣訊息：三星每年銷售超過 3 億支手機，高通 Snapdragon 針對美國市場，聯發科用在低階手機，三星 Exynos 占 25%~50% 出貨總量，然後預估 Exynos 2100 銷售量介於 3,000 萬到 7,000 萬顆，NPU 也將「下放」到更低階晶片。

但即便如此，三星自己的「獵戶座」（Exynos）系統單晶片無法完全滿足手機產品線需求，「僅」占 25%~50%，或基於不為人知的策略考量，三星不但中低階手機引進高通、聯發科和紫光展銳產品，高階市場更很尷尬的反覆上演「同款旗艦機，論效能和功耗，三星獵戶座明顯不如高通驍龍（Snapdragon）」的歡樂劇場，而來自四面八方大恩大德，一律將三星那明顯不如台積電晶圓代工製程，判決為千夫所指的元兇，現在大家就等著看在明年 S24 的 Exynos 2400，靠「良率提升的三星 4 奈米製程」，情勢能否好轉，能否比肩高通 Snapdragon 8 Gen 3。回顧 Exynos 發展史，三星也和高通一樣，歷經硬著頭皮自立開發自有 CPU 核心微架構（M1~M5）直到被迫放棄（M6）的痛苦過程。

▲ 三星本來也跟高通看齊，自行打造相容 ARM 指令集的處理器微架構，但隨著 2019 年底三星解散德州奧斯汀研發中心，轉向與 ARM 合作客製化方案，M6 形同胎死腹中，M5 就此成為絕響。

主題拉回「人工智慧」，相較「御三家」，三星踏入人工智慧的腳步較晚，自 2016 年開始研發搭載 NPU（神經處理單元，Neural Processing Unit）的 Exynos 行動處理器，2017 年 12 月著手開發第二代 NPU（第一世代應為研究案），專案團隊剛成立時只有 20 人左右，2019 年上市 Galaxy S10 採用 Exynos 9820，是三星首款具備 NPU（第二代）的系統單晶片，直到 2022 年 Exynos 2200，三星 SoC 設計團隊迄今自研六代 NPU 產品，NPU 研究團隊加上國外，人數達 200 人，是最初十倍之譜。

就三星（及其他手機和晶片廠商）說法，NPU 是「針對深度學習演算法而最佳化的高效能處理器」，應用手機已相當普遍，像手機相機 NPU 加持下，能清楚辨識畫面人物、物體和環境並調整對焦，拍攝美食時會自動套用食物濾鏡，並有功能更強大的 AI 修圖，可原圖選取並「一鍵移除」不想看到的雜物和不該入鏡的閒雜人等。

▲ 時下手機相機「作弊」功能，都有勞行動處理器的 NPU。

人類進入 AI 時代後，有大量資料處理能力的高效能 NPU IP 市場需求日增，不限於提升相機畫質、增強語音服務等等，像車輛先進駕駛輔助系統（ADAS，Advanced Driver Assistance Systems）也仰賴高效能 NPU 輔助，以利即時執行使用大量資料的自駕演算法。因此除了行動處理器，三星 Exynos Auto 車用晶片也同樣導入系出同源的 NPU。

直接手機等邊緣（Edge）處理 AI 運算，無須透過伺服器的智慧終端（On-device AI），大幅縮短服務反應延遲，更比較沒有敏感個資外洩風險，相關技術只會更普及，行動式 NPU 效能更需與時俱進，提升 NPU 不同應用領域的處理能力，而為了兼顧高效能和低功耗，摸索出效率最高的架構至關重要。

▲ 晶片面積吋土吋「億」，如何摸索出效率最高的架構是研發 NPU 的重中之重。

不過比較可惜的是，三星很少公開 NPU 資料，筆者唯一找到比較完整者，是三星 2021 年 3 月 tinyML Summit 詳細陳述 Exynos 2100 第五世代 NPU。順便一提，三星 2021 年同步調整 Galaxy S 手機和高階 Exynos 行動處理器的命名方式，依照年份，2021 年是 S21 和 Exynos 2100，2022 年是 S22 和 Exynos 2200，以此類推，但話說回來，今年 S23 就沒有 Exynos 2300 可用，只有高通 Snapdragon 8 Gen 2，有點諷刺。

這裡剛好談談「AMD 重返行動運算市場」這件事，高通手上 Adreno GPU，是 AMD 於 2009 年 1 月以 6,500 萬美元價碼賣過去。Exynos 2200 的 Xclipse 920 GPU 是基於 AMD RDNA 2 微架構的產物，也使其成為首款支援硬體光線追蹤的行動處理器，同時在 Exynos Auto V920 車用晶片。據說 Exynos 2400 的 Xclipse 940 有前代兩倍的計算單元，屆時能跑出多高的分數，應該滿值得期待。

▲ Exynos 2100 三星第五代 NPU，到頭來看來看去，各家「推論加速器」長得都很像，最起碼 MAC 都大同小異。

言歸正傳，這 NPU 有以下特徵：

多核心微架構：三個 NPU 核心，每核心各有兩個卷積運算引擎（NPU Conv Engine），理論運算效能 26TOPS，並在 MLPerf 基準跑分有相當出色的表現。
更高乘積和（MAC）運算單元利用率：加法器樹型態（Adder-Tree-based datapath）資料路徑與序列化的卷積運算（可聯想成將一堆 4D 運算轉換成一連串 1D）。
更佳效能與能效：運算時可跳過特徵圖（Feature Map）零數據（Zero Data），縮減實際工作量。

▲ 為了兼顧效能和功耗，如何「不要做白工」就是設計 NPU 的重點，上圖展示三星第五代 NPU 如何資料處理過程刪除掉特徵圖的零數據。

降低記憶體容量與頻寬需求：權重（Weight）與特徵圖壓縮機制。
更敏捷的資源調度：將直接記憶體傳輸（DMA）與乘積和運算平行化。
Exynos 2200 第六代 NPU 支援 Int8 資料格式，理論效能是 Exynos 2100 的兩倍（約 52TOPS）。

總之「英雄所見略同」，太陽底下沒有新鮮事，乍看大家做的事好像都差不多。但行文至此，筆者看到「S24 / S24+ 統一使用 Exynos 2400，S24 Ultra 都是 Snapdragon 8 Gen 3」謠傳，原因推測是「三星 4 奈米製程良率超乎預期，產量可望更多，而台積電 N4P 製程（5 奈米技術平台的效能強化版）讓這次高通報價比前一代更高，只能讓高單價 S24 Ultra 吸收額外成本，並簡化機種型號」，但這變相主動承認自家產品技不如人，等於讓 Exynos 2400 未戰先敗，是福是禍就有待明年上市才能分曉，搞不好會意外演出脫線劇情。

整體戰略華麗壯大卻受制美國制裁的華為海思

說到中國華為（Huawei）曾身為全球規模最大的行動通訊基礎設備供應商，姑且不論是否經中國政府大力扶植（近來最聳動的新聞是華為得到「300 億美元」補貼，祕密打造晶片供應鏈以規避美國制裁）、四處偷竊商業機密和仿冒他人產品、身為中國政府控制他國命脈的戰略核心，才能有如此驚人的發展，但平心而論，華為還算是很敢大力投資研發的公司，人工智慧布局甚早，2012 年香港成立諾亞方舟實驗室（Huawei Noah′s Ark Lab），並持續與全球各地知名大學「深度合作」。

華為 2017 年 9 月 IFA 2017 柏林消費電子展發表「全球首款手機 AI 晶片」Kirin 970（麒麟 970），整合授權自北京寒武紀（Cambricon，成立於 2016 年 3 月 15 日）的寒武紀 1A NPU，華為 Mate 10 手機大規模商用，並延續到 2018 年第四季 Kirin 980（最佳化後雙核 1A）。

▲ 從物聯網邊緣推論到資料中心的深度學習，都是華為 DaVinci 的守備範圍。

但如同寒武紀創辦人兼執行長陳天石所言「如果像華為這樣有能力、有平台的巨頭都不打算自研 AI 晶片，只能說明 AI 晶片還不夠重要」，華為終究還是要做自己的東西。

2018 年 10 月 10 日華為全聯接大會（HUAWEI CONNECT 2018），輪值董事長徐直軍宣布兩款 AI 晶片：追求高能效推論的 Ascend 310 與訴求高計算密度訓練的 Ascend 910，並在 2019 年 Hot Chips 31 華為旗下 IC 設計公司海思（Hisilicon）首席科學家、Ascend 總架構師廖恆，透過視訊（因美國政府限制無法前往矽谷）揭露 DaVinci（達文西）AI 核心微架構的全貌，並公布完整 AI 布局，由下而上依序是：統一、可擴展的 DaVinci 架構 Ascend（昇騰）系列晶片，「華為的 CUDA」CANN（Compute Architecture for Neural Networks）異質計算架構，訓練和推理框架 MindSpore，以及一站式 AI 開發平台 ModelArts。

▲ 從底層硬體到應用程式開發，華為擘畫了完整戰略與布局。

筆者前一篇文章談到「蘋果 ANE（Apple Neural Engine）同時考量到訓練和推論」可能性，筆者會這樣想的主因在華為 DaVinci 擺明一開始就想這樣做，並不是毫無前例可循，繼注重邊緣推理的 CANN1.0 和聚焦資料中心訓練的 CANN 2.0，CANN 3.0 兼具兩者，DaVinci 核心理念是「以最小運算代價，增強矩陣乘法運算力，以實現更高 AI 能效和可擴展的運算能力」。

DaVinci 核心同時擁有純量（Scalar）、向量（Vector）和 3D 立方體（Cube）運算單元，搭配數塊不同容量 SRAM 緩衝記憶體（兩塊 64kB，兩塊 256kB，一塊 1MB），對應未來神經網路運算類型的潛在變化。向量單元可在單一時脈週期內處理 128 個寬度 2,048 位元的 INT8 / FP16 / FP32 資料，3D Cube 進行超高速矩陣計算，有鑑於需要支援巨大的動態範圍，而 16×16×16 兼顧性能和功耗的最佳平衡點，可在一個時脈週期完成 4,096 個 FP16 和 8,192 個 INT8 乘積和運算，如碰到運算能力需求較低的應用，Cube 可逐步縮小至 16×16×1（256 個乘積和運算），提供適應不同任務的靈活性。

▲ 華為 DaVinci 微架構的運算單元規劃可謂面面俱到，堪稱「想要算什麼就會有什麼」。

此外，因應不同應用需求，DaVinci 也大玩「大小核」：雲端訓練的 DaVinci Max、邊緣訓練的 DaVinci（再次證明華為設定的出發點）、機器人推論的 DaVinci Mini、智慧手機推論的 DaVinci Lite（Big Core）和可穿戴裝置推論的 DaVinci Tiny。

▲ DaVinci 微架構具備靈活調整運算單元規模的彈性，依據不同需求可採不同等級核心。

換言之，DaVinci 可謂「可大可小」，華為將 2,048 個 Ascend 910（FP16 256TFlops, INT8 512TFlops）組成理論運算效能高達 512PFlops（FP16）的 Ascend Cluster 分散式叢集訓練系統。屬於 Ascend-mini 系列的 Ascend 310，最大功耗僅 8W 下，有 INT8 16TOPS 和 FP16 8TOPS 運算力，並整合 16 通道視訊解碼器，適用影像辨識、自動搬運車、園區巴士和自動駕駛等場域。2019 年第四季登場的 Kirin 990 5G 則搭載兩個 DaVinci Lite 和一個 DaVinci Tiny。

▲ DaVinci 不限於手機，連資料中心推論和訓練都派得上用場。

「充滿野心、規格暴力且深謀遠慮」（究竟是否從哪抄來的就不得而知了）是筆者對華為海思 DaVinci 唯一能下的註腳，但三年多來受制於美國禁令，原先為台積電第二大客戶、占整體營收 14% 僅次蘋果的華為，無法委託台積電製造晶片，深陷「5G 時代只能推出 4G 新機」窘境，反倒是中興（ZTE）趁機蠶食鯨吞華為通訊市場市占率。華為是否藉「中國製造」5G 行動處理器突破美國封鎖網，還是難以擺脫「良率低，成本高，撐不久」預言，就拭目以待。

▲ 即使部署資料中心的訓練應用，也都是 DaVinci 可大展身手之處，卻看似毫無取代 Nvidia 的希望。

直接引進 PowerVR 的紫光展銳

▲ 紫光展銳 UMS9620 功能架構圖，以此為基礎衍生出三個行動處理器型號。

相對三星和華為，紫光集團的紫光展銳（Unisoc）能見度和話題性就沒那麼高了，UMS9620 晶片三個衍生型號：2020 年第一季 5G 行動處理器 Tanggula T770（4.8TOPS）、2021 年第二季 T760（3.2TOPS）和 2022 年第四季 T820（8TOPS）導入 Imagination 的 PowerVR Series3NX 神經網路加速器（NNA，Neural Network Accelerator），採用型號是單核性能最高的 AX3596，可在每個時脈週期處理 4,096 個 INT8 或 1,024 個 FP16 運算，最高理論效能 12.5TOPS，最多可擴展到 160 核，足夠滿足先進駕駛輔助系統（ADAS）應用。但筆者唯一看到的重點卻是「Imagination 宣稱不會對新創公司收取 IP 授權費用」，滿好奇這或許就是紫光展銳選擇這 NPU IP 的理由。

▲ 紫光展銳並未自行研發 NPU，而是直接從 Imagination 取得 PowerVR3NX 的 IP 授權。

中國半導體產業遭美國「斬首」後，也促成大廠頻繁高層人事異動，除了「台積幫」全數退出中芯國際董事會、兩年內再度更換董事長，之前 2015 年紫光集團董事長趙偉國狂言「買下台積電，併購聯發科」，卻在 2021 年 7 月宣告破產重整，到處找錢企圖重起爐灶，與紫光展銳股東爆發大亂鬥，對三家總計代持 8.37% 股權的公司提起訴訟，並凍結部分股權，希望取回員工代持公司擁有的股權，還爆發紫光展銳突然替換董事長，直接衝擊融資與 IPO 進度。官網產品介紹那句「6nm EUV 先進工藝」還會放多久，何時會「升級」，就讓大家等著瞧。

直接沿用 Edge TPU 的 Google Tensor

號稱 Google 自研的 Tensor 行動處理器，其實更像三星替 Google 量身訂做的客製產品，如 2021 年 10 月 Pixel 秋季發表會跟著 Pixel 6 / Pixel 6 Pro 一同亮相的第一代 Tensor 晶片（代號 Whitechapel），被人注意到「和 Exynos 2100（S5E9840）幾乎是同個模子刻出來的」，連產品代號「S5E9845」都證明和三星系出同源，類似當年「蘋果首款自研處理器 A4（APL0398）」，設計衍生於三星 S5PC110A01，最主要差別在 GPU 換成蘋果長期偏好的 PowerVR SGX 系列，技術唯一亮點，大概唯有靠 Intrinsity（日後被蘋果併購）和三星 Humming Bird（後來更名 Exynos 3 Single）合作將時脈從 ARM Cortex-A8 從官方 650MHz 一舉推進到 1GHz。

▲ 智慧手機市場，2021 年就出現自研晶片井噴式爆發，如小米和 vivo 自研影像處理器，Google 更找三星客製內建自家 Edge TPU 的 Tensor 行動處理器。

根據公開資訊，Tensor 第二代（Cloudripper）、第三代（Zuma）與第四代（Redondo，因錯過 2022 年底試產時程已中止）都依循既定開發模式，但第五代（Laguna）據稱將是 100% Google 自研，然後使用台積電 3 奈米製程製造。

既然 Google 早在 2016 年 5 月 Google I/O 大會發表「已在資料中心使用一年多」的第一代雲端 TPU（Tensor Processing Unit），還一路發展到第五代與 Edge TPU，當然就順理成章沿用現有成果。原本 Edge TPU 功耗 2W 時提供 4TOPS 理論效能，Tensor 處理器版約 5.7TOPS。雖然這數字實在偏低，但只要 Pixel 使用者和 Google 軟體開發團隊感到滿意就統統沒問題，後面各位就會了解筆者為何這麼說。

▲ 既然軟硬體都是現成的，Google 沒有理由從頭設計新東西，沿用 Edge TPU 就可以了。

到頭來，怎麼都沒看到 ARM 自己的 NPU？

行文至此，想必細心的讀者會赫然發現「怎麼這票智慧手機的系統單晶片，都沒看到 ARM 自己的 Ethos-N 系列 NPU？」好像大家都自己搞自己的，但也許可從 Google 決定自己替 Pixel 系列手機開發 Tensor 處理器的理由，一窺這票廠商到底在想什麼，為何要「為了喝牛奶養一整座牧場」。剛好 Google 就是最好例證。

▲ 智慧手機晶片一路看下來，好像都看不到 ARM 自家 NPU 的影子。

眾人皆知，Google Pixel 系列手機一直是「運算攝影」先行者，也是 Google 每年介紹新機時唯一重點，像 Pixel 2 / 3 只靠單鏡頭就可達成人像模糊、Pixel 4 天文攝影模式到 Pixel 5 能替人像照片做後製手動補光，無不是歷代 Pixel 替整個智慧手機產業帶來的嶄新突破。筆者也曾經擁有 Pixel 3 當備用機，對低光源場景的拍攝效果印象深刻（至於連續碰到兩次電池膨脹撐爆機殼就真的極度考驗人品了）。

值得一提的是，Pixel 2 / 3 有外掛一顆 Pixel Visual Core 輔助處理器，Pixel 4 則是後繼的 Pixel Neural Core，這些都會占用額外主機板空間，也同時提高成本。Pixel 5，Google 就放棄補上自家晶片的念頭，使用 Snapdragon 765G 裡面的 Hexagon 696 DSP（5.4TOPS），結果就是水土不服，Google 不得不重新訓練模型，只為了讓 Pixel 5 可正常使用補光演算法，這只是高通 Snapdragon 不足以滿足 Pixel 各種 AI 應用場合使用需求的冰山一角。

當 Google 可針對軟體客製硬體後，不但無須追加輔助處理器，帳面理論效能和 Hexagon 696 DSP 相去不遠的 Edge TPU，不僅可在 Pixel 6 做到 4K 60FPS 錄影時使用 HDR 效果，還一併克服發熱嚴重的老毛病，從以往只能拍 4~5 分鐘，改進為至少 20 分鐘，也改善離線語言轉文字功能的辨識效果，並便於 Google 將即時翻譯功能整合至更多應用程式。所謂「你家 TOPS 不等於我家 TOPS」，說穿就是這麼回事。對智慧手機來說，要有一氣呵成的流暢使用者體驗，一點都不簡單，要注意的邊邊角角細節可多了。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

科技

科技新報

「站在巨人肩膀上卻好像站不太穩旗艦手機」的三星獵戶座

整體戰略華麗壯大卻受制美國制裁的華為海思

直接引進 PowerVR 的紫光展銳

直接沿用 Edge TPU 的 Google Tensor

到頭來，怎麼都沒看到 ARM 自己的 NPU？

更多科技相關文章

一滴血就能揪出癌細胞、檢測快300倍，台灣生技新創醫華生技切進泰國國家級醫療機構

記憶體長期供不應求　三星第2季營業利益狂飆18倍

跨界實驗室｜關於科技》氣炸鍋的下一場進化是蒸氣？評測飛利浦星視界 Plus 及分析家電科技的下一步

博通與蘋果延長晶片供應合作至2031年

研發快4倍　消費品巨頭靠AI推動產品變革

三星非晶片員工擬集會　抗議半導體部門優渥獎金

請更新您的瀏覽器啟用Javascript

一覽處理器廠商的「人工智慧推論加速單元」：智慧手機篇（下）

科技新報

「站在巨人肩膀上卻好像站不太穩旗艦手機」的三星獵戶座

整體戰略華麗壯大卻受制美國制裁的華為海思

直接引進 PowerVR 的紫光展銳

直接沿用 Edge TPU 的 Google Tensor

到頭來，怎麼都沒看到 ARM 自己的 NPU？

更多科技相關文章

一滴血就能揪出癌細胞、檢測快300倍，台灣生技新創醫華生技切進泰國國家級醫療機構

記憶體長期供不應求 三星第2季營業利益狂飆18倍

跨界實驗室｜關於科技》氣炸鍋的下一場進化是蒸氣？評測飛利浦星視界 Plus 及分析家電科技的下一步

博通與蘋果延長晶片供應合作至2031年

研發快4倍 消費品巨頭靠AI推動產品變革

三星非晶片員工擬集會 抗議半導體部門優渥獎金

請更新您的瀏覽器

記憶體長期供不應求　三星第2季營業利益狂飆18倍

研發快4倍　消費品巨頭靠AI推動產品變革

三星非晶片員工擬集會　抗議半導體部門優渥獎金