請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(下)

科技新報

更新於 2023年08月29日15:32 • 發布於 2023年08月30日08:10

繼上一篇〈一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(上)〉介紹了「御三家」:高通(Qualcomm)、聯發科(MediaTek)和蘋果(Apple)手機系統單晶片內建的人工智慧推論輔助處理器,這次聚焦市場其他參賽者:三星(Samsung)、華為海思(Hisilicon)、紫光展銳(Unisoc)及「Android 大本家」Google。

但請讓筆者先澆冷水:假若各位期待以下內容會像上期精彩絕倫、同樣波瀾壯闊,那可能會讓人大失所望,因以上四家共同特色就是「不是資料太少,就是幾乎沿用現成技術」,所以筆者也不會太過著墨技術,會多談點商業背景和應景時事,以便充實各位的人生。

「站在巨人肩膀上卻好像站不太穩旗艦手機」的三星獵戶座

市調機構 Canalys 7 月發表第二季全球智慧手機出貨量報告,比去年同期下跌 11%,前五大手機品牌依序為三星(21%)、蘋果(17%)、小米(13%)、OPPO(10%)、vivo(8%)和 2022 年同期相去無幾,三星繼續穩坐出貨量冠軍寶座,全盛時期年銷售量超過「3 億支」。全球手機出貨量創十年新低的今年第一季,僅三星靠年初發表 Galaxy S23 系列產品帶動買氣(手持 S23 Ultra 的筆者有幸躬逢其盛),出貨量達 6,150 萬台,比 2022 年第四季增加 5.5%,成為唯一正成長的手機品牌。

照理說,如此巨大市占率和出貨量,也理所當然成為三星厚植自家手機晶片(包含基頻、影像感測器、面板、低功耗動態記憶體、快閃記憶體和一堆有的沒有)研發實力的肥沃土壤,協助三星半導體部門搶占市場(包括其他手機品牌,像 vivo 就用了不少三星行動處理器),且能降低料件成本。

▲ 三星這頁 2021 年簡報透露不少有趣訊息:三星每年銷售超過 3 億支手機,高通 Snapdragon 針對美國市場,聯發科用在低階手機,三星 Exynos 占 25%~50% 出貨總量,然後預估 Exynos 2100 銷售量介於 3,000 萬到 7,000 萬顆,NPU 也將「下放」到更低階晶片。

但即便如此,三星自己的「獵戶座」(Exynos)系統單晶片無法完全滿足手機產品線需求,「僅」占 25%~50%,或基於不為人知的策略考量,三星不但中低階手機引進高通、聯發科和紫光展銳產品,高階市場更很尷尬的反覆上演「同款旗艦機,論效能和功耗,三星獵戶座明顯不如高通驍龍(Snapdragon)」的歡樂劇場,而來自四面八方大恩大德,一律將三星那明顯不如台積電晶圓代工製程,判決為千夫所指的元兇,現在大家就等著看在明年 S24 的 Exynos 2400,靠「良率提升的三星 4 奈米製程」,情勢能否好轉,能否比肩高通 Snapdragon 8 Gen 3。回顧 Exynos 發展史,三星也和高通一樣,歷經硬著頭皮自立開發自有 CPU 核心微架構(M1~M5) 直到被迫放棄(M6)的痛苦過程。

▲ 三星本來也跟高通看齊,自行打造相容 ARM 指令集的處理器微架構,但隨著 2019 年底三星解散德州奧斯汀研發中心,轉向與 ARM 合作客製化方案,M6 形同胎死腹中,M5 就此成為絕響。

主題拉回「人工智慧」,相較「御三家」,三星踏入人工智慧的腳步較晚,自 2016 年開始研發搭載 NPU(神經處理單元,Neural Processing Unit)的 Exynos 行動處理器,2017 年 12 月著手開發第二代 NPU(第一世代應為研究案),專案團隊剛成立時只有 20 人左右,2019 年上市 Galaxy S10 採用 Exynos 9820,是三星首款具備 NPU(第二代)的系統單晶片,直到 2022 年 Exynos 2200,三星 SoC 設計團隊迄今自研六代 NPU 產品,NPU 研究團隊加上國外,人數達 200 人,是最初十倍之譜。

就三星(及其他手機和晶片廠商)說法,NPU 是「針對深度學習演算法而最佳化的高效能處理器」,應用手機已相當普遍,像手機相機 NPU 加持下,能清楚辨識畫面人物、物體和環境並調整對焦,拍攝美食時會自動套用食物濾鏡,並有功能更強大的 AI 修圖,可原圖選取並「一鍵移除」不想看到的雜物和不該入鏡的閒雜人等。

▲ 時下手機相機「作弊」功能,都有勞行動處理器的 NPU。

人類進入 AI 時代後,有大量資料處理能力的高效能 NPU IP 市場需求日增,不限於提升相機畫質、增強語音服務等等,像車輛先進駕駛輔助系統(ADAS,Advanced Driver Assistance Systems)也仰賴高效能 NPU 輔助,以利即時執行使用大量資料的自駕演算法。因此除了行動處理器,三星 Exynos Auto 車用晶片也同樣導入系出同源的 NPU。

直接手機等邊緣(Edge)處理 AI 運算,無須透過伺服器的智慧終端(On-device AI),大幅縮短服務反應延遲,更比較沒有敏感個資外洩風險,相關技術只會更普及,行動式 NPU 效能更需與時俱進,提升 NPU 不同應用領域的處理能力,而為了兼顧高效能和低功耗,摸索出效率最高的架構至關重要。

▲ 晶片面積吋土吋「億」,如何摸索出效率最高的架構是研發 NPU 的重中之重。

不過比較可惜的是,三星很少公開 NPU 資料,筆者唯一找到比較完整者,是三星 2021 年 3 月 tinyML Summit 詳細陳述 Exynos 2100 第五世代 NPU。順便一提,三星 2021 年同步調整 Galaxy S 手機和高階 Exynos 行動處理器的命名方式,依照年份,2021 年是 S21 和 Exynos 2100,2022 年是 S22 和 Exynos 2200,以此類推,但話說回來,今年 S23 就沒有 Exynos 2300 可用,只有高通 Snapdragon 8 Gen 2,有點諷刺。

這裡剛好談談「AMD 重返行動運算市場」這件事,高通手上 Adreno GPU,是 AMD 於 2009 年 1 月以 6,500 萬美元價碼賣過去。Exynos 2200 的 Xclipse 920 GPU 是基於 AMD RDNA 2 微架構的產物,也使其成為首款支援硬體光線追蹤的行動處理器,同時在 Exynos Auto V920 車用晶片。據說 Exynos 2400 的 Xclipse 940 有前代兩倍的計算單元,屆時能跑出多高的分數,應該滿值得期待。

▲ Exynos 2100 三星第五代 NPU,到頭來看來看去,各家「推論加速器」長得都很像,最起碼 MAC 都大同小異。

言歸正傳,這 NPU 有以下特徵:

  • 多核心微架構:三個 NPU 核心,每核心各有兩個卷積運算引擎(NPU Conv Engine),理論運算效能 26TOPS,並在 MLPerf 基準跑分有相當出色的表現。

  • 更高乘積和(MAC)運算單元利用率:加法器樹型態(Adder-Tree-based datapath)資料路徑與序列化的卷積運算(可聯想成將一堆 4D 運算轉換成一連串 1D)。

  • 更佳效能與能效:運算時可跳過特徵圖(Feature Map)零數據(Zero Data),縮減實際工作量。

▲ 為了兼顧效能和功耗,如何「不要做白工」就是設計 NPU 的重點,上圖展示三星第五代 NPU 如何資料處理過程刪除掉特徵圖的零數據。

  • 降低記憶體容量與頻寬需求:權重(Weight)與特徵圖壓縮機制。

  • 更敏捷的資源調度:將直接記憶體傳輸(DMA)與乘積和運算平行化。

  • Exynos 2200 第六代 NPU 支援 Int8 資料格式,理論效能是 Exynos 2100 的兩倍(約 52TOPS)。

總之「英雄所見略同」,太陽底下沒有新鮮事,乍看大家做的事好像都差不多。但行文至此,筆者看到「S24 / S24+ 統一使用 Exynos 2400,S24 Ultra 都是 Snapdragon 8 Gen 3」謠傳,原因推測是「三星 4 奈米製程良率超乎預期,產量可望更多,而台積電 N4P 製程(5 奈米技術平台的效能強化版)讓這次高通報價比前一代更高,只能讓高單價 S24 Ultra 吸收額外成本,並簡化機種型號」,但這變相主動承認自家產品技不如人,等於讓 Exynos 2400 未戰先敗,是福是禍就有待明年上市才能分曉,搞不好會意外演出脫線劇情。

整體戰略華麗壯大卻受制美國制裁的華為海思

說到中國華為(Huawei)曾身為全球規模最大的行動通訊基礎設備供應商,姑且不論是否經中國政府大力扶植(近來最聳動的新聞是華為得到「300 億美元」補貼,祕密打造晶片供應鏈以規避美國制裁)、四處偷竊商業機密和仿冒他人產品、身為中國政府控制他國命脈的戰略核心,才能有如此驚人的發展,但平心而論,華為還算是很敢大力投資研發的公司,人工智慧布局甚早,2012 年香港成立諾亞方舟實驗室(Huawei Noah′s Ark Lab),並持續與全球各地知名大學「深度合作」。

華為 2017 年 9 月 IFA 2017 柏林消費電子展發表「全球首款手機 AI 晶片」Kirin 970(麒麟 970),整合授權自北京寒武紀(Cambricon,成立於 2016 年 3 月 15 日)的寒武紀 1A NPU,華為 Mate 10 手機大規模商用,並延續到 2018 年第四季 Kirin 980(最佳化後雙核 1A)。

▲ 從物聯網邊緣推論到資料中心的深度學習,都是華為 DaVinci 的守備範圍。

但如同寒武紀創辦人兼執行長陳天石所言「如果像華為這樣有能力、有平台的巨頭都不打算自研 AI 晶片,只能說明 AI 晶片還不夠重要」,華為終究還是要做自己的東西。

2018 年 10 月 10 日華為全聯接大會(HUAWEI CONNECT 2018),輪值董事長徐直軍宣布兩款 AI 晶片:追求高能效推論的 Ascend 310 與訴求高計算密度訓練的 Ascend 910,並在 2019 年 Hot Chips 31 華為旗下 IC 設計公司海思(Hisilicon)首席科學家、Ascend 總架構師廖恆,透過視訊(因美國政府限制無法前往矽谷)揭露 DaVinci(達文西)AI 核心微架構的全貌,並公布完整 AI 布局,由下而上依序是:統一、可擴展的 DaVinci 架構 Ascend(昇騰)系列晶片,「華為的 CUDA」CANN(Compute Architecture for Neural Networks)異質計算架構,訓練和推理框架 MindSpore,以及一站式 AI 開發平台 ModelArts。

▲ 從底層硬體到應用程式開發,華為擘畫了完整戰略與布局。

筆者前一篇文章談到「蘋果 ANE(Apple Neural Engine)同時考量到訓練和推論」可能性,筆者會這樣想的主因在華為 DaVinci 擺明一開始就想這樣做,並不是毫無前例可循,繼注重邊緣推理的 CANN1.0 和聚焦資料中心訓練的 CANN 2.0,CANN 3.0 兼具兩者,DaVinci 核心理念是「以最小運算代價,增強矩陣乘法運算力,以實現更高 AI 能效和可擴展的運算能力」。

DaVinci 核心同時擁有純量(Scalar)、向量(Vector)和 3D 立方體(Cube)運算單元,搭配數塊不同容量 SRAM 緩衝記憶體(兩塊 64kB,兩塊 256kB,一塊 1MB),對應未來神經網路運算類型的潛在變化。向量單元可在單一時脈週期內處理 128 個寬度 2,048 位元的 INT8 / FP16 / FP32 資料,3D Cube 進行超高速矩陣計算,有鑑於需要支援巨大的動態範圍,而 16×16×16 兼顧性能和功耗的最佳平衡點,可在一個時脈週期完成 4,096 個 FP16 和 8,192 個 INT8 乘積和運算,如碰到運算能力需求較低的應用,Cube 可逐步縮小至 16×16×1(256 個乘積和運算),提供適應不同任務的靈活性。

▲ 華為 DaVinci 微架構的運算單元規劃可謂面面俱到,堪稱「想要算什麼就會有什麼」。

此外,因應不同應用需求,DaVinci 也大玩「大小核」:雲端訓練的 DaVinci Max、邊緣訓練的 DaVinci(再次證明華為設定的出發點)、機器人推論的 DaVinci Mini、智慧手機推論的 DaVinci Lite(Big Core)和可穿戴裝置推論的 DaVinci Tiny。

▲ DaVinci 微架構具備靈活調整運算單元規模的彈性,依據不同需求可採不同等級核心。

換言之,DaVinci 可謂「可大可小」,華為將 2,048 個 Ascend 910(FP16 256TFlops, INT8 512TFlops)組成理論運算效能高達 512PFlops(FP16)的 Ascend Cluster 分散式叢集訓練系統。屬於 Ascend-mini 系列的 Ascend 310,最大功耗僅 8W 下,有 INT8 16TOPS 和 FP16 8TOPS 運算力,並整合 16 通道視訊解碼器,適用影像辨識、自動搬運車、園區巴士和自動駕駛等場域。2019 年第四季登場的 Kirin 990 5G 則搭載兩個 DaVinci Lite 和一個 DaVinci Tiny。

▲ DaVinci 不限於手機,連資料中心推論和訓練都派得上用場。

「充滿野心、規格暴力且深謀遠慮」(究竟是否從哪抄來的就不得而知了)是筆者對華為海思 DaVinci 唯一能下的註腳,但三年多來受制於美國禁令,原先為台積電第二大客戶、占整體營收 14% 僅次蘋果的華為,無法委託台積電製造晶片,深陷「5G 時代只能推出 4G 新機」窘境,反倒是中興(ZTE)趁機蠶食鯨吞華為通訊市場市占率。華為是否藉「中國製造」5G 行動處理器突破美國封鎖網,還是難以擺脫「良率低,成本高,撐不久」預言,就拭目以待。

▲ 即使部署資料中心的訓練應用,也都是 DaVinci 可大展身手之處,卻看似毫無取代 Nvidia 的希望。

直接引進 PowerVR 的紫光展銳

▲ 紫光展銳 UMS9620 功能架構圖,以此為基礎衍生出三個行動處理器型號。

相對三星和華為,紫光集團的紫光展銳(Unisoc)能見度和話題性就沒那麼高了,UMS9620 晶片三個衍生型號:2020 年第一季 5G 行動處理器 Tanggula T770(4.8TOPS)、2021 年第二季 T760(3.2TOPS)和 2022 年第四季 T820(8TOPS)導入 Imagination 的 PowerVR Series3NX 神經網路加速器(NNA,Neural Network Accelerator),採用型號是單核性能最高的 AX3596,可在每個時脈週期處理 4,096 個 INT8 或 1,024 個 FP16 運算,最高理論效能 12.5TOPS,最多可擴展到 160 核,足夠滿足先進駕駛輔助系統(ADAS)應用。但筆者唯一看到的重點卻是「Imagination 宣稱不會對新創公司收取 IP 授權費用」,滿好奇這或許就是紫光展銳選擇這 NPU IP 的理由。

▲ 紫光展銳並未自行研發 NPU,而是直接從 Imagination 取得 PowerVR3NX 的 IP 授權。

中國半導體產業遭美國「斬首」後,也促成大廠頻繁高層人事異動,除了「台積幫」全數退出中芯國際董事會、兩年內再度更換董事長,之前 2015 年紫光集團董事長趙偉國狂言「買下台積電,併購聯發科」,卻在 2021 年 7 月宣告破產重整,到處找錢企圖重起爐灶,與紫光展銳股東爆發大亂鬥,對三家總計代持 8.37% 股權的公司提起訴訟,並凍結部分股權,希望取回員工代持公司擁有的股權,還爆發紫光展銳突然替換董事長,直接衝擊融資與 IPO 進度。官網產品介紹那句「6nm EUV 先進工藝」還會放多久,何時會「升級」,就讓大家等著瞧。

直接沿用 Edge TPU 的 Google Tensor

號稱 Google 自研的 Tensor 行動處理器,其實更像三星替 Google 量身訂做的客製產品,如 2021 年 10 月 Pixel 秋季發表會跟著 Pixel 6 / Pixel 6 Pro 一同亮相的第一代 Tensor 晶片(代號 Whitechapel),被人注意到「和 Exynos 2100(S5E9840)幾乎是同個模子刻出來的」,連產品代號「S5E9845」都證明和三星系出同源,類似當年「蘋果首款自研處理器 A4(APL0398)」,設計衍生於三星 S5PC110A01,最主要差別在 GPU 換成蘋果長期偏好的 PowerVR SGX 系列,技術唯一亮點,大概唯有靠 Intrinsity(日後被蘋果併購)和三星 Humming Bird(後來更名 Exynos 3 Single)合作將時脈從 ARM Cortex-A8 從官方 650MHz 一舉推進到 1GHz。

▲ 智慧手機市場,2021 年就出現自研晶片井噴式爆發,如小米和 vivo 自研影像處理器,Google 更找三星客製內建自家 Edge TPU 的 Tensor 行動處理器。

根據公開資訊,Tensor 第二代(Cloudripper)、第三代(Zuma)與第四代(Redondo,因錯過 2022 年底試產時程已中止)都依循既定開發模式,但第五代(Laguna)據稱將是 100% Google 自研,然後使用台積電 3 奈米製程製造。

既然 Google 早在 2016 年 5 月 Google I/O 大會發表「已在資料中心使用一年多」的第一代雲端 TPU(Tensor Processing Unit),還一路發展到第五代與 Edge TPU,當然就順理成章沿用現有成果。原本 Edge TPU 功耗 2W 時提供 4TOPS 理論效能,Tensor 處理器版約 5.7TOPS。雖然這數字實在偏低,但只要 Pixel 使用者和 Google 軟體開發團隊感到滿意就統統沒問題,後面各位就會了解筆者為何這麼說。

▲ 既然軟硬體都是現成的,Google 沒有理由從頭設計新東西,沿用 Edge TPU 就可以了。

到頭來,怎麼都沒看到 ARM 自己的 NPU?

行文至此,想必細心的讀者會赫然發現「怎麼這票智慧手機的系統單晶片,都沒看到 ARM 自己的 Ethos-N 系列 NPU?」好像大家都自己搞自己的,但也許可從 Google 決定自己替 Pixel 系列手機開發 Tensor 處理器的理由,一窺這票廠商到底在想什麼,為何要「為了喝牛奶養一整座牧場」。剛好 Google 就是最好例證。

▲ 智慧手機晶片一路看下來,好像都看不到 ARM 自家 NPU 的影子。

眾人皆知,Google Pixel 系列手機一直是「運算攝影」先行者,也是 Google 每年介紹新機時唯一重點,像 Pixel 2 / 3 只靠單鏡頭就可達成人像模糊、Pixel 4 天文攝影模式到 Pixel 5 能替人像照片做後製手動補光,無不是歷代 Pixel 替整個智慧手機產業帶來的嶄新突破。筆者也曾經擁有 Pixel 3 當備用機,對低光源場景的拍攝效果印象深刻(至於連續碰到兩次電池膨脹撐爆機殼就真的極度考驗人品了)。

值得一提的是,Pixel 2 / 3 有外掛一顆 Pixel Visual Core 輔助處理器,Pixel 4 則是後繼的 Pixel Neural Core,這些都會占用額外主機板空間,也同時提高成本。Pixel 5,Google 就放棄補上自家晶片的念頭,使用 Snapdragon 765G 裡面的 Hexagon 696 DSP(5.4TOPS),結果就是水土不服,Google 不得不重新訓練模型,只為了讓 Pixel 5 可正常使用補光演算法,這只是高通 Snapdragon 不足以滿足 Pixel 各種 AI 應用場合使用需求的冰山一角。

當 Google 可針對軟體客製硬體後,不但無須追加輔助處理器,帳面理論效能和 Hexagon 696 DSP 相去不遠的 Edge TPU,不僅可在 Pixel 6 做到 4K 60FPS 錄影時使用 HDR 效果,還一併克服發熱嚴重的老毛病,從以往只能拍 4~5 分鐘,改進為至少 20 分鐘,也改善離線語言轉文字功能的辨識效果,並便於 Google 將即時翻譯功能整合至更多應用程式。所謂「你家 TOPS 不等於我家 TOPS」,說穿就是這麼回事。對智慧手機來說,要有一氣呵成的流暢使用者體驗,一點都不簡單,要注意的邊邊角角細節可多了。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

毛利率警示引發AI報酬疑慮 博通股價重挫11%

路透社
02

英特爾已測試涉中晶片設備 外界憂可能用於先進製程

路透社
03

路透:輝達擬提高H200晶片產量 因應中國強勁需求

路透社
04

鴻海高雄Y15聯開案來了!砸159億打造南台灣旗艦總部、30%容積建安心宅:給足員工福利移居亞灣

今周刊
05

美參議員華倫籲黃仁勳出席聽證 說明川普售中國晶片決策

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...