請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(下)

科技新報

更新於 2023年08月29日15:32 • 發布於 2023年08月30日08:10

繼上一篇〈一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(上)〉介紹了「御三家」:高通(Qualcomm)、聯發科(MediaTek)和蘋果(Apple)手機系統單晶片內建的人工智慧推論輔助處理器,這次聚焦市場其他參賽者:三星(Samsung)、華為海思(Hisilicon)、紫光展銳(Unisoc)及「Android 大本家」Google。

但請讓筆者先澆冷水:假若各位期待以下內容會像上期精彩絕倫、同樣波瀾壯闊,那可能會讓人大失所望,因以上四家共同特色就是「不是資料太少,就是幾乎沿用現成技術」,所以筆者也不會太過著墨技術,會多談點商業背景和應景時事,以便充實各位的人生。

「站在巨人肩膀上卻好像站不太穩旗艦手機」的三星獵戶座

市調機構 Canalys 7 月發表第二季全球智慧手機出貨量報告,比去年同期下跌 11%,前五大手機品牌依序為三星(21%)、蘋果(17%)、小米(13%)、OPPO(10%)、vivo(8%)和 2022 年同期相去無幾,三星繼續穩坐出貨量冠軍寶座,全盛時期年銷售量超過「3 億支」。全球手機出貨量創十年新低的今年第一季,僅三星靠年初發表 Galaxy S23 系列產品帶動買氣(手持 S23 Ultra 的筆者有幸躬逢其盛),出貨量達 6,150 萬台,比 2022 年第四季增加 5.5%,成為唯一正成長的手機品牌。

照理說,如此巨大市占率和出貨量,也理所當然成為三星厚植自家手機晶片(包含基頻、影像感測器、面板、低功耗動態記憶體、快閃記憶體和一堆有的沒有)研發實力的肥沃土壤,協助三星半導體部門搶占市場(包括其他手機品牌,像 vivo 就用了不少三星行動處理器),且能降低料件成本。

▲ 三星這頁 2021 年簡報透露不少有趣訊息:三星每年銷售超過 3 億支手機,高通 Snapdragon 針對美國市場,聯發科用在低階手機,三星 Exynos 占 25%~50% 出貨總量,然後預估 Exynos 2100 銷售量介於 3,000 萬到 7,000 萬顆,NPU 也將「下放」到更低階晶片。

但即便如此,三星自己的「獵戶座」(Exynos)系統單晶片無法完全滿足手機產品線需求,「僅」占 25%~50%,或基於不為人知的策略考量,三星不但中低階手機引進高通、聯發科和紫光展銳產品,高階市場更很尷尬的反覆上演「同款旗艦機,論效能和功耗,三星獵戶座明顯不如高通驍龍(Snapdragon)」的歡樂劇場,而來自四面八方大恩大德,一律將三星那明顯不如台積電晶圓代工製程,判決為千夫所指的元兇,現在大家就等著看在明年 S24 的 Exynos 2400,靠「良率提升的三星 4 奈米製程」,情勢能否好轉,能否比肩高通 Snapdragon 8 Gen 3。回顧 Exynos 發展史,三星也和高通一樣,歷經硬著頭皮自立開發自有 CPU 核心微架構(M1~M5) 直到被迫放棄(M6)的痛苦過程。

▲ 三星本來也跟高通看齊,自行打造相容 ARM 指令集的處理器微架構,但隨著 2019 年底三星解散德州奧斯汀研發中心,轉向與 ARM 合作客製化方案,M6 形同胎死腹中,M5 就此成為絕響。

主題拉回「人工智慧」,相較「御三家」,三星踏入人工智慧的腳步較晚,自 2016 年開始研發搭載 NPU(神經處理單元,Neural Processing Unit)的 Exynos 行動處理器,2017 年 12 月著手開發第二代 NPU(第一世代應為研究案),專案團隊剛成立時只有 20 人左右,2019 年上市 Galaxy S10 採用 Exynos 9820,是三星首款具備 NPU(第二代)的系統單晶片,直到 2022 年 Exynos 2200,三星 SoC 設計團隊迄今自研六代 NPU 產品,NPU 研究團隊加上國外,人數達 200 人,是最初十倍之譜。

就三星(及其他手機和晶片廠商)說法,NPU 是「針對深度學習演算法而最佳化的高效能處理器」,應用手機已相當普遍,像手機相機 NPU 加持下,能清楚辨識畫面人物、物體和環境並調整對焦,拍攝美食時會自動套用食物濾鏡,並有功能更強大的 AI 修圖,可原圖選取並「一鍵移除」不想看到的雜物和不該入鏡的閒雜人等。

▲ 時下手機相機「作弊」功能,都有勞行動處理器的 NPU。

人類進入 AI 時代後,有大量資料處理能力的高效能 NPU IP 市場需求日增,不限於提升相機畫質、增強語音服務等等,像車輛先進駕駛輔助系統(ADAS,Advanced Driver Assistance Systems)也仰賴高效能 NPU 輔助,以利即時執行使用大量資料的自駕演算法。因此除了行動處理器,三星 Exynos Auto 車用晶片也同樣導入系出同源的 NPU。

直接手機等邊緣(Edge)處理 AI 運算,無須透過伺服器的智慧終端(On-device AI),大幅縮短服務反應延遲,更比較沒有敏感個資外洩風險,相關技術只會更普及,行動式 NPU 效能更需與時俱進,提升 NPU 不同應用領域的處理能力,而為了兼顧高效能和低功耗,摸索出效率最高的架構至關重要。

▲ 晶片面積吋土吋「億」,如何摸索出效率最高的架構是研發 NPU 的重中之重。

不過比較可惜的是,三星很少公開 NPU 資料,筆者唯一找到比較完整者,是三星 2021 年 3 月 tinyML Summit 詳細陳述 Exynos 2100 第五世代 NPU。順便一提,三星 2021 年同步調整 Galaxy S 手機和高階 Exynos 行動處理器的命名方式,依照年份,2021 年是 S21 和 Exynos 2100,2022 年是 S22 和 Exynos 2200,以此類推,但話說回來,今年 S23 就沒有 Exynos 2300 可用,只有高通 Snapdragon 8 Gen 2,有點諷刺。

這裡剛好談談「AMD 重返行動運算市場」這件事,高通手上 Adreno GPU,是 AMD 於 2009 年 1 月以 6,500 萬美元價碼賣過去。Exynos 2200 的 Xclipse 920 GPU 是基於 AMD RDNA 2 微架構的產物,也使其成為首款支援硬體光線追蹤的行動處理器,同時在 Exynos Auto V920 車用晶片。據說 Exynos 2400 的 Xclipse 940 有前代兩倍的計算單元,屆時能跑出多高的分數,應該滿值得期待。

▲ Exynos 2100 三星第五代 NPU,到頭來看來看去,各家「推論加速器」長得都很像,最起碼 MAC 都大同小異。

言歸正傳,這 NPU 有以下特徵:

  • 多核心微架構:三個 NPU 核心,每核心各有兩個卷積運算引擎(NPU Conv Engine),理論運算效能 26TOPS,並在 MLPerf 基準跑分有相當出色的表現。

  • 更高乘積和(MAC)運算單元利用率:加法器樹型態(Adder-Tree-based datapath)資料路徑與序列化的卷積運算(可聯想成將一堆 4D 運算轉換成一連串 1D)。

  • 更佳效能與能效:運算時可跳過特徵圖(Feature Map)零數據(Zero Data),縮減實際工作量。

▲ 為了兼顧效能和功耗,如何「不要做白工」就是設計 NPU 的重點,上圖展示三星第五代 NPU 如何資料處理過程刪除掉特徵圖的零數據。

  • 降低記憶體容量與頻寬需求:權重(Weight)與特徵圖壓縮機制。

  • 更敏捷的資源調度:將直接記憶體傳輸(DMA)與乘積和運算平行化。

  • Exynos 2200 第六代 NPU 支援 Int8 資料格式,理論效能是 Exynos 2100 的兩倍(約 52TOPS)。

總之「英雄所見略同」,太陽底下沒有新鮮事,乍看大家做的事好像都差不多。但行文至此,筆者看到「S24 / S24+ 統一使用 Exynos 2400,S24 Ultra 都是 Snapdragon 8 Gen 3」謠傳,原因推測是「三星 4 奈米製程良率超乎預期,產量可望更多,而台積電 N4P 製程(5 奈米技術平台的效能強化版)讓這次高通報價比前一代更高,只能讓高單價 S24 Ultra 吸收額外成本,並簡化機種型號」,但這變相主動承認自家產品技不如人,等於讓 Exynos 2400 未戰先敗,是福是禍就有待明年上市才能分曉,搞不好會意外演出脫線劇情。

整體戰略華麗壯大卻受制美國制裁的華為海思

說到中國華為(Huawei)曾身為全球規模最大的行動通訊基礎設備供應商,姑且不論是否經中國政府大力扶植(近來最聳動的新聞是華為得到「300 億美元」補貼,祕密打造晶片供應鏈以規避美國制裁)、四處偷竊商業機密和仿冒他人產品、身為中國政府控制他國命脈的戰略核心,才能有如此驚人的發展,但平心而論,華為還算是很敢大力投資研發的公司,人工智慧布局甚早,2012 年香港成立諾亞方舟實驗室(Huawei Noah′s Ark Lab),並持續與全球各地知名大學「深度合作」。

華為 2017 年 9 月 IFA 2017 柏林消費電子展發表「全球首款手機 AI 晶片」Kirin 970(麒麟 970),整合授權自北京寒武紀(Cambricon,成立於 2016 年 3 月 15 日)的寒武紀 1A NPU,華為 Mate 10 手機大規模商用,並延續到 2018 年第四季 Kirin 980(最佳化後雙核 1A)。

▲ 從物聯網邊緣推論到資料中心的深度學習,都是華為 DaVinci 的守備範圍。

但如同寒武紀創辦人兼執行長陳天石所言「如果像華為這樣有能力、有平台的巨頭都不打算自研 AI 晶片,只能說明 AI 晶片還不夠重要」,華為終究還是要做自己的東西。

2018 年 10 月 10 日華為全聯接大會(HUAWEI CONNECT 2018),輪值董事長徐直軍宣布兩款 AI 晶片:追求高能效推論的 Ascend 310 與訴求高計算密度訓練的 Ascend 910,並在 2019 年 Hot Chips 31 華為旗下 IC 設計公司海思(Hisilicon)首席科學家、Ascend 總架構師廖恆,透過視訊(因美國政府限制無法前往矽谷)揭露 DaVinci(達文西)AI 核心微架構的全貌,並公布完整 AI 布局,由下而上依序是:統一、可擴展的 DaVinci 架構 Ascend(昇騰)系列晶片,「華為的 CUDA」CANN(Compute Architecture for Neural Networks)異質計算架構,訓練和推理框架 MindSpore,以及一站式 AI 開發平台 ModelArts。

▲ 從底層硬體到應用程式開發,華為擘畫了完整戰略與布局。

筆者前一篇文章談到「蘋果 ANE(Apple Neural Engine)同時考量到訓練和推論」可能性,筆者會這樣想的主因在華為 DaVinci 擺明一開始就想這樣做,並不是毫無前例可循,繼注重邊緣推理的 CANN1.0 和聚焦資料中心訓練的 CANN 2.0,CANN 3.0 兼具兩者,DaVinci 核心理念是「以最小運算代價,增強矩陣乘法運算力,以實現更高 AI 能效和可擴展的運算能力」。

DaVinci 核心同時擁有純量(Scalar)、向量(Vector)和 3D 立方體(Cube)運算單元,搭配數塊不同容量 SRAM 緩衝記憶體(兩塊 64kB,兩塊 256kB,一塊 1MB),對應未來神經網路運算類型的潛在變化。向量單元可在單一時脈週期內處理 128 個寬度 2,048 位元的 INT8 / FP16 / FP32 資料,3D Cube 進行超高速矩陣計算,有鑑於需要支援巨大的動態範圍,而 16×16×16 兼顧性能和功耗的最佳平衡點,可在一個時脈週期完成 4,096 個 FP16 和 8,192 個 INT8 乘積和運算,如碰到運算能力需求較低的應用,Cube 可逐步縮小至 16×16×1(256 個乘積和運算),提供適應不同任務的靈活性。

▲ 華為 DaVinci 微架構的運算單元規劃可謂面面俱到,堪稱「想要算什麼就會有什麼」。

此外,因應不同應用需求,DaVinci 也大玩「大小核」:雲端訓練的 DaVinci Max、邊緣訓練的 DaVinci(再次證明華為設定的出發點)、機器人推論的 DaVinci Mini、智慧手機推論的 DaVinci Lite(Big Core)和可穿戴裝置推論的 DaVinci Tiny。

▲ DaVinci 微架構具備靈活調整運算單元規模的彈性,依據不同需求可採不同等級核心。

換言之,DaVinci 可謂「可大可小」,華為將 2,048 個 Ascend 910(FP16 256TFlops, INT8 512TFlops)組成理論運算效能高達 512PFlops(FP16)的 Ascend Cluster 分散式叢集訓練系統。屬於 Ascend-mini 系列的 Ascend 310,最大功耗僅 8W 下,有 INT8 16TOPS 和 FP16 8TOPS 運算力,並整合 16 通道視訊解碼器,適用影像辨識、自動搬運車、園區巴士和自動駕駛等場域。2019 年第四季登場的 Kirin 990 5G 則搭載兩個 DaVinci Lite 和一個 DaVinci Tiny。

▲ DaVinci 不限於手機,連資料中心推論和訓練都派得上用場。

「充滿野心、規格暴力且深謀遠慮」(究竟是否從哪抄來的就不得而知了)是筆者對華為海思 DaVinci 唯一能下的註腳,但三年多來受制於美國禁令,原先為台積電第二大客戶、占整體營收 14% 僅次蘋果的華為,無法委託台積電製造晶片,深陷「5G 時代只能推出 4G 新機」窘境,反倒是中興(ZTE)趁機蠶食鯨吞華為通訊市場市占率。華為是否藉「中國製造」5G 行動處理器突破美國封鎖網,還是難以擺脫「良率低,成本高,撐不久」預言,就拭目以待。

▲ 即使部署資料中心的訓練應用,也都是 DaVinci 可大展身手之處,卻看似毫無取代 Nvidia 的希望。

直接引進 PowerVR 的紫光展銳

▲ 紫光展銳 UMS9620 功能架構圖,以此為基礎衍生出三個行動處理器型號。

相對三星和華為,紫光集團的紫光展銳(Unisoc)能見度和話題性就沒那麼高了,UMS9620 晶片三個衍生型號:2020 年第一季 5G 行動處理器 Tanggula T770(4.8TOPS)、2021 年第二季 T760(3.2TOPS)和 2022 年第四季 T820(8TOPS)導入 Imagination 的 PowerVR Series3NX 神經網路加速器(NNA,Neural Network Accelerator),採用型號是單核性能最高的 AX3596,可在每個時脈週期處理 4,096 個 INT8 或 1,024 個 FP16 運算,最高理論效能 12.5TOPS,最多可擴展到 160 核,足夠滿足先進駕駛輔助系統(ADAS)應用。但筆者唯一看到的重點卻是「Imagination 宣稱不會對新創公司收取 IP 授權費用」,滿好奇這或許就是紫光展銳選擇這 NPU IP 的理由。

▲ 紫光展銳並未自行研發 NPU,而是直接從 Imagination 取得 PowerVR3NX 的 IP 授權。

中國半導體產業遭美國「斬首」後,也促成大廠頻繁高層人事異動,除了「台積幫」全數退出中芯國際董事會、兩年內再度更換董事長,之前 2015 年紫光集團董事長趙偉國狂言「買下台積電,併購聯發科」,卻在 2021 年 7 月宣告破產重整,到處找錢企圖重起爐灶,與紫光展銳股東爆發大亂鬥,對三家總計代持 8.37% 股權的公司提起訴訟,並凍結部分股權,希望取回員工代持公司擁有的股權,還爆發紫光展銳突然替換董事長,直接衝擊融資與 IPO 進度。官網產品介紹那句「6nm EUV 先進工藝」還會放多久,何時會「升級」,就讓大家等著瞧。

直接沿用 Edge TPU 的 Google Tensor

號稱 Google 自研的 Tensor 行動處理器,其實更像三星替 Google 量身訂做的客製產品,如 2021 年 10 月 Pixel 秋季發表會跟著 Pixel 6 / Pixel 6 Pro 一同亮相的第一代 Tensor 晶片(代號 Whitechapel),被人注意到「和 Exynos 2100(S5E9840)幾乎是同個模子刻出來的」,連產品代號「S5E9845」都證明和三星系出同源,類似當年「蘋果首款自研處理器 A4(APL0398)」,設計衍生於三星 S5PC110A01,最主要差別在 GPU 換成蘋果長期偏好的 PowerVR SGX 系列,技術唯一亮點,大概唯有靠 Intrinsity(日後被蘋果併購)和三星 Humming Bird(後來更名 Exynos 3 Single)合作將時脈從 ARM Cortex-A8 從官方 650MHz 一舉推進到 1GHz。

▲ 智慧手機市場,2021 年就出現自研晶片井噴式爆發,如小米和 vivo 自研影像處理器,Google 更找三星客製內建自家 Edge TPU 的 Tensor 行動處理器。

根據公開資訊,Tensor 第二代(Cloudripper)、第三代(Zuma)與第四代(Redondo,因錯過 2022 年底試產時程已中止)都依循既定開發模式,但第五代(Laguna)據稱將是 100% Google 自研,然後使用台積電 3 奈米製程製造。

既然 Google 早在 2016 年 5 月 Google I/O 大會發表「已在資料中心使用一年多」的第一代雲端 TPU(Tensor Processing Unit),還一路發展到第五代與 Edge TPU,當然就順理成章沿用現有成果。原本 Edge TPU 功耗 2W 時提供 4TOPS 理論效能,Tensor 處理器版約 5.7TOPS。雖然這數字實在偏低,但只要 Pixel 使用者和 Google 軟體開發團隊感到滿意就統統沒問題,後面各位就會了解筆者為何這麼說。

▲ 既然軟硬體都是現成的,Google 沒有理由從頭設計新東西,沿用 Edge TPU 就可以了。

到頭來,怎麼都沒看到 ARM 自己的 NPU?

行文至此,想必細心的讀者會赫然發現「怎麼這票智慧手機的系統單晶片,都沒看到 ARM 自己的 Ethos-N 系列 NPU?」好像大家都自己搞自己的,但也許可從 Google 決定自己替 Pixel 系列手機開發 Tensor 處理器的理由,一窺這票廠商到底在想什麼,為何要「為了喝牛奶養一整座牧場」。剛好 Google 就是最好例證。

▲ 智慧手機晶片一路看下來,好像都看不到 ARM 自家 NPU 的影子。

眾人皆知,Google Pixel 系列手機一直是「運算攝影」先行者,也是 Google 每年介紹新機時唯一重點,像 Pixel 2 / 3 只靠單鏡頭就可達成人像模糊、Pixel 4 天文攝影模式到 Pixel 5 能替人像照片做後製手動補光,無不是歷代 Pixel 替整個智慧手機產業帶來的嶄新突破。筆者也曾經擁有 Pixel 3 當備用機,對低光源場景的拍攝效果印象深刻(至於連續碰到兩次電池膨脹撐爆機殼就真的極度考驗人品了)。

值得一提的是,Pixel 2 / 3 有外掛一顆 Pixel Visual Core 輔助處理器,Pixel 4 則是後繼的 Pixel Neural Core,這些都會占用額外主機板空間,也同時提高成本。Pixel 5,Google 就放棄補上自家晶片的念頭,使用 Snapdragon 765G 裡面的 Hexagon 696 DSP(5.4TOPS),結果就是水土不服,Google 不得不重新訓練模型,只為了讓 Pixel 5 可正常使用補光演算法,這只是高通 Snapdragon 不足以滿足 Pixel 各種 AI 應用場合使用需求的冰山一角。

當 Google 可針對軟體客製硬體後,不但無須追加輔助處理器,帳面理論效能和 Hexagon 696 DSP 相去不遠的 Edge TPU,不僅可在 Pixel 6 做到 4K 60FPS 錄影時使用 HDR 效果,還一併克服發熱嚴重的老毛病,從以往只能拍 4~5 分鐘,改進為至少 20 分鐘,也改善離線語言轉文字功能的辨識效果,並便於 Google 將即時翻譯功能整合至更多應用程式。所謂「你家 TOPS 不等於我家 TOPS」,說穿就是這麼回事。對智慧手機來說,要有一氣呵成的流暢使用者體驗,一點都不簡單,要注意的邊邊角角細節可多了。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0