請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(上)

科技新報

更新於 2023年08月22日13:39 • 發布於 2023年08月23日08:00

對現代人來說,人手一支、形影不離的智慧手機(Smart Phone),整合了多數可攜帶式電子裝置角色,從行動網路、數位相機、數位攝影機、媒體播放器、可攜式電子遊戲機、錄音筆,甚至「交通卡」、「電子錢包」、「手電筒」和「噪聲檢測器」等透過行動應用程式(Mobile App)擴充的琳瑯滿目功能,使智慧手機「對一般生活的必要性」遠超過個人電腦,弄丟手機這件事,搞不好比弄丟錢包還嚴重。

▲ 如果搭上時光機跟十年前筆者說:你以後會在手機花超過 4 萬元,一定會被當成神經病,但這就是現在智慧手機對生活的重要性。(Source:三星)

也因此,消費者寧可掏出 3、4 萬元甚至更多,購入最新且建議售價節節高升的旗艦級手機(筆者 2 月入手三星 Galaxy S23 Ultra 一舉「翻倍」歷年升級主力手機的預算紀錄),卻不見得願意付同樣代價買個人電腦,即使後者料件成本(BOM Cost)可能較高,所謂「價值決定價格」大概就這麼回事。基於同樣道理,智慧手機議題,特別是持續推陳出新的系統單晶片(SoC,System on Chip),更能吸引科技狂熱者目光,反觀個人電腦,越來越冷門、越來越乏人問津,彷彿被多數人遺忘。

繼上一篇〈人工智慧推論加速單元:x86 篇〉,本文筆者焦點轉向智慧手機處理器「御三家」:「手握六成 5G 基頻晶片的高階 Android 手機王者」高通(Qualcomm)、急起直追的「台灣之光、手機市占率之王」聯發科(MediaTek)、「總是關起門自己玩」的蘋果(Apple),稍晚登場的下一篇則是「處境略為尷尬的三星(Samsung) 獵戶座(Exynos)」、「快被美國半導體制裁活活打趴在地上的華為海思麒麟(Kirin)」與「今夏精彩上演股東大亂鬥的紫光展銳(UniSOC)」三個陪榜者,共六位智慧手機晶片參賽者。

▲ 從 2G 到 5G,數量驚人的行動通訊技術專利一直是高通王牌,也是長期獨領風騷的基礎。

但平心而論,數位訊號處理器(DSP,Digital Signal Processor)對智慧手機重要性,遠超過個人電腦的 x86 指令集相容處理器,所以各位才更該多看好幾眼。也許各位並不熟悉 DSP 是什麼,簡而言之,DSP 基本思想是「介於高度靈活的 CPU 和高效能固定功能硬體(視訊影音解碼器之類)的中間點」,DSP 可像 CPU 編程,但應用限制較嚴格,只能完成種類有限的運算負載,如使用特殊指令,激增快速傅立葉轉換(Fast Fourier Transform,FFT)等訊號處理關鍵演算法。可編程、速度雖快但功能受限,是 DSP 最貼切的寫照。

專職輔助運算處理器對追求省電的手機有舉足輕重重要性

如小型電腦的智慧手機,隨時隨地執行大量應用程式,如何竭盡所能降低功耗以延長電池續航,一直是打造智慧手機的重中之重,論「能耗比」,x86 處理器早看不到這票智慧手機系統單晶片的車尾燈,無論蘋果自研晶片還是無數 Android 手機的心臟。蘋果個人電腦處理器之所以驚人,也都是建立在智慧手機的基礎之上。

尤其當人工智慧發展,從「雲端」(Cloud)逐漸轉至「終端」(Edge,或稱「邊緣」),涵蓋拍照、攝影、影音串流和遊戲等應用場景,以提升服務回應速度。以拍照攝影為例,人臉偵測、物體追蹤、雜訊抑制、判別景深、白平衡、高動態範圍影像、路人模糊化等林林總總「特效」,總不能統統送上雲端處理再回傳吧?智慧手機勢必有支撐這些應用的「算力」,也對手機處理器造成功耗難題,採量身訂做的專用輔助處理器,就成為所有全部廠商的方向,且發生時間點遠早於 x86 處理器陣營。

▲ 聯發科 Hot Chips 34(2022 年)演講簡報,道盡智慧手機「最基本人工智慧」應用有哪些。

這票手機處理器「電腦最基礎語言」清一色是 ARM 指令集架構(RISC-V 會不會崛起尚在未定之天),亦定義 SIMD(單指令多資料流)指令與運算單元,如固定 128 位元寬的 Neon 和 128~2,048 位元彈性的 SVE(Scalable Vector Extension,極度偏向純種向量處理器的優異理念),但說到底,缺乏完全獨立的資料暫存器、記憶體、快取記憶體與匯流排,都是依附 CPU 核心的產物,別說省電,一用起來沒激增 CPU 功耗還附贈降低時脈就阿彌陀佛了(英特爾 AVX 指令集是很好的前車之鑑),難兼顧效能和功耗。

各位可能疑惑:現在雲端服務業者為了建置人工智慧算力,紛紛捧著鈔票搶著購買 Nvidia 高階 GPU,近代手機晶片也普遍搭配性能不弱的 GPU,為何手機也不乾脆走向 GPGPU 呢?道理很簡單,即便 GPU 在大量平行運算有壓倒性性能優勢,但也容易激增行動運算平台致命的高功耗,況且 GPU 是否完全符合邊緣運算的 AI 需求也是個大問號。

故可看到手機處理器廠商,有志一同積極自研「人工智慧推論加速單元」和軟體開發套件,沒有例外。畢竟想到新手機的拍照功能,可藉人工智慧協助(這算不算「作弊」就見仁見智了),達成過去只有高階單眼相機和頂級鏡頭才能有的效果,就不難想見這塊市場有多兵家必爭。

高通:歷史悠久的 Hexagon 數位訊號處理器

論歷史悠久,如果 x86 處理器領域有英特爾 GNA(Gaussian & Neural Accelerator,高斯和類神經加速器)為代表,ARM 手機處理器世界的象徵王者,就莫過於以 Snapdragon(驍龍)之名顯赫於世、高階 Android 手機晶片的王者高通(Qualcomm)Hexagon DSP(QDSP6,指高通第六代數位訊號處理器)了,兼具 CPU 和 DSP 功能,可充分對應行動運算平台對多媒體和數據機的需求,像 4K 影像後處理和上億畫素相機連拍處理等。

▲ 距 2004 秋天年高通研發 Hexagon DSP(數位訊號處理器)已近 20 年過去,隨著智慧手機市場急速成長,Hexagon 也因 Snapdragon 大賣,成為最具代表性的 DSP。

拜搭上急速擴展智慧手機市場順風車之賜,2012 年估計,高通 2011 年售出系統單晶片含 12 億個 Hexagon DSP(平均每 SoC 有 2.3 個),2012 年更成長到 15 億個之譜,使 QDSP6 躍升「出貨量最多」的 DSP 架構,繼德州儀器(TI)TMS320 家族後,處理器世界最具指標性的 DSP 當然值得大書特書、寫出與其相襯的巨大篇幅。回顧漫長歷史,說 Hexagon DSP 是現今全體智慧手機的人工智慧縮影,實當之無愧。

▲ 除了高通 2004 年秋季啟動 Hexagon DSP 研發,也早在 2007 年就著手研究人工智慧究,兩者於 2016 年 Hexagon 680 DSP(Snapdragon 820) 交叉,讓 Hexagon 進化成「高通人工智慧推論引擎」。

早在 2004 年秋季,高通就開始發展 Hexagon(「六邊形」之意) 數位訊號處理器,2011 年啟動「Hexagon Access」計畫,允許客戶編程。高通 2012 年 Snapdragon S4(MSM8960)有三個 QDSP6 核心,兩個位於數據機子系統,剩下一個放在多媒體子系統,前者僅高通能用,後者開放客戶開發程式。

2012 年幾乎所有高通商用 4G LTE 數據機,都有數個演化到第五代的 Hexagon DSP 身影。2013 年,高通發表 Hexagon DSP 開發環境,即 Hexagon SDK,並首度於處理器業界年度盛會 Hot Chips 25,公開第五代 Hexagon DSP 的技術細節。

打從一開始,以追求能耗效率為前提,Hexagon DSP 微架構結合可變指令編碼長度、單指令多資料流(SIMD)的超長指令集(VLIW,最多塞入兩個記憶體存取指令與兩個向量運算指令)與硬體多執行緒,力求每個時脈週期可平行處理更寬的資料,但維持較低時脈。就高通觀點,超長指令集與多執行緒是互補技術,後者可隱藏管線延遲(實際效果也在 2012 年英特爾 Itanium 9500 Poulson 得到證實),並便於編譯器更有效排程指令。

▲ 最初 Hexagon DSP 採用四指令包的超長指令集(VLIW)架構,可在單一指令執行最多兩個 64 位元向量運算和兩個記憶體存取。

Hexagon DSP 的硬體執行緒數量,隨著各種產品和應用程式需要,幾代以來一直變化,最初 Hexagon V1 支援六執行緒,到 Hexagon V4 變成三個,Hexagon V5 進一步將原本簡單的交錯式執行緒(IMT,Interleaved Multi-Threading)升級為動態多執行緒(DMT,Dynamic Multi-Threading),碰到 L2 快取未命中、中斷等待或執行特殊指令集,才會切換執行緒,大致可視為粗質多執行緒(CMT,Coarse Multi-Threading)類別。

▲ 打從一開始,高通 Hexagon DSP 就兼具超長指令集和硬體多執行緒,後者可掩蓋指令執行延遲。因應不同時期的應用需求,高通也一直修正 Hexagon 多執行緒數量與切換方式。

高通從 2007 年就著手類神經網路研究,接著人工智慧發展史就如我們熟知,基於深度學習的卷積神經網路經典模型 AlexNet 贏得 2012 年 ImageNet 大規模視覺辨識挑戰賽,後來 Google 買下創造 AlexNet 的 DNNreseach,提前預言人工智慧即將出現大霹靂,也影響 Hexagon DSP 的發展目標。

2015 年 Hot Chips 27,高通發表 Snapdragon 820 處理器,帶來飛躍性技術進步的 Hexagon 680 DSP,就有幸躬逢其盛的筆者印象所及,上演吸引不少科技媒體爭相撰文報導的盛況。但就後見之明,眾多技術名詞背後,Hexagon 680 DSP 對高通的真正意義,是這些文章多半沒有點出來的:這是「第一世代高通人工智慧推論引擎」(First Gen Qualcomm AI Engine),讓高通處理器踏出邁入人工智慧推論作業的第一步。

前面稍微提到隨便一顆高通系統單晶片,動輒用到數個 Hexagon DSP,就順便來瞧瞧筆者第一支三星手機 Galaxy S7 的心臟:Snapdragon 820,除了既定輔佐 CPU 和 GPU 的「計算用 DSP」(Compute DSP)、協助行動通訊網路訊號處理的「數據機 DSP」(Modem DSP),隨時維持常態運作(Always On)的低功耗功能區塊(Low Power Island)又放了專門連接各式各樣感測器(三軸加速度、陀螺儀、GPS 等)、作用相當於一個「Sensor Hub」的「低功耗 DSP」(Low Power DSP),幫助取得整合並處理不同感測器的數據,且不耗用 CPU 運算能量。

▲ 一顆系統單晶片往往用到數顆 Hexagon DSP,像 Snapdragon 就用到三顆,分別計算工作、數據機訊號處理、控制周邊感測器。

相對於「先賢先烈」,QDSP6 第六世代的 Hexagon 680 有以下創新:

  • Hexagon 680「最重要,沒有之一」的功能:Hexagon 向量擴展(HVX,Hexagon Vector eXtensions),旨在處理圖像處理應用程式的大量計算負載,像虛擬實境、增強實境、圖像處理、視訊處理和計算機視覺等,有 1,024 位元寬向量資料暫存器,因 Hexagon 超長指令一次最多含四個運算,所以每時脈週期最多可處理 4,096 位元寬資料。Hexagon 680 的兩個 HVX 向量運算,可由任意兩個純量運算執行緒控制。L2 快取記憶體是 HVX 向量執行單元可存取的第一層記憶體,而非容量有限的 L1 快取。

▲ 將向量長度從 64 位元一舉激增到 1,024 位元的 HVX(Hexagon Vector eXtensions)向量擴展,不只單 SIMD 指令擴充這麼簡單,更是替 Hexagon DSP 打開踏入人工智慧的大門,也讓 Hexagon 680 DSP 成為「高通第一世代人工智慧推論引擎」。

  • 從前代三執行緒擴展為四執行緒,每個執行緒以 500MHz 時脈運行。L2 快取記憶體可「軟分割」成數塊,分配給不同執行緒與執行單元(總計四個純量,兩個向量),再結合賦予執行緒不同優先權的 QoS(Quality of Service)機能,有助音效和影像運算,不會同時爭搶 Hexagon 680 的執行時間。

▲ Hexagon 680 DSP 的硬體多執行緒由四個時脈 500MHz 組成,因同時僅兩個執行緒執行純量運算、兩個執行緒負責向量運算,所以個別等於 1GHz 理論效能。

  • 減少無謂資料搬移與複製、避免頻繁經晶片外部 DRAM 主記憶體,交換不同功能單元的資料,是兼備高效能和低功耗的良方。Snapdragon 820 的 Hexagon 680 能將來自相機影像感測器數據,直接傳到 L2 快取,再分享給影像訊號處理器(ISP,Image Signal Processor)。此外,Snapdragon 820 系統記憶體管理單元(SMMU,System Memory Management Unit)也允許晶片其他功能單元,毋需額外複製就與 CPU 共享資料。

▲ 讓影像等資料流可藉 Hexagon 的 L2 快取記憶體互通有無,不用透過系統主記憶體,不僅大幅縮短傳輸延遲,更能降低整體功耗。

總之,以 Snapdragon 820 和 Hexagon 680 為起點,高通行動運算處理器打開「人工智慧天堂」大門,雖然世人普遍意識到 AI 對智慧手機如此重要,也是好幾年後的事了,從 iPhone 7 後跳槽至三星手機的筆者,到現在也還是傻傻搞不清楚 Hexagon 680 和 685 到底貢獻三星 Galaxy S7 和 S9+(港版)哪些讓筆者很爽的使用者體驗,唯一可猜到的是 Spectra ISP 種種功能,其實都是這些「無名英雄」默默幹的好事。

2019 年 Snapdragon 855「第四代 AI 引擎」Hexagon 690 是重大升級,重點如下:

▲ Snapdragon 855 的 Hexagon 690 倍增向量運算執行單元,並擴增張量(Tensor)加速器和語音助理,漸漸越來越有「人工智慧」的模樣。

  • 倍增向量執行單元至四個,直接加倍理論運算效能。

  • 新增張量(Tensor)加速器,這名詞想必各位現在都不陌生。

  • 追加 Google Assistant 和百度 DuerOS 等人工智慧對話功能會用到的語音助理。

2021 年 Snapdragon 888 的「第六代 AI 引擎」Hexagon 780,不僅將 QDSP6 推進到第七世代,整個 IP 設計更頗有「砍掉重練」味道:

▲ Snapdragon 888 的 Hexagon 780 DSP 將純量、張量和向量執行單元整合為單一 IP 區塊,大幅提升性能與靈活性,即使如此重大技術突破還是無法扭轉 Snapdragon 888 因過熱翻車的事實。

  • 先前純量、向量和張量執行單元,都是各自獨立散布於 Hexagon 600 系列家族,但 Hexagon 780 整合為單一「融合式 AI 加速器」(Fused AI accelerator)IP 區塊,大大提高混合三種運算的工作負載處理效率。高通對新設計感到「非常興奮」,表示性能和靈活性遠超出其他公司「DSP 與 AI 推理引擎分而治之」(往往還是不同 IP 來源)的水準。

  • 純量理論效能提升 50%,張量理論效能倍增,Hexagon 內建的共享 SRAM 容量增加 16 倍。至於網路鄉民念茲在茲的「能耗比」,Hexagon 780 是上世代的三倍。

2022 年 Snapdragon 8 Gen1 的 Hexagon 790,提供混合 INT8 / INT16 精準度。2023 年「完成度極高」的 Snapdragon 8 Gen 2,型號不明的 Hexagon,不但多出 INT4 格式,總體理論效能更是 Hexagon 790「4.35 倍」,不禁讓人懷疑這是不是全新的第八代。

很剛好的,8 月 29 日 HotChips 35 第二天,有場名為「Qualcomm Hexagon Tensor Processor」的高通議程,屆時極可能將一窺廬山真面目,或許會更了解三星 S23 Ultra 足堪「演唱會追星神器」重任的超強望遠鏡頭,究竟是被多強大的運算效能支撐。只可惜筆者並不愛看演唱會,更遑論「追星」,只純粹覺得 S23 Ultra「獵殺」交通違規車輛車牌,實在是超級無敵天殺好用。

▲ 高通將在 Hot Chips 35 第二天公開 Hexagon NPU 技術細節,表現極為出色的 Snapdragon 8 Gen 2,其「人工智慧」能耐很快就會有答案了。

聯發科:泛用各種類型晶片的 APU

智慧手機市場從 2020 年第三季,正好是 5G 世代 Dimensity(天璣)踏進市場,台灣聯發科首次市占率超車高通後,至今未失去龍頭地位,穩定吃下近 40% 市占。經中國山寨手機市場起家的聯發科,也漸漸擺脫「低階破壞式創新」和「一核有難,多核圍觀」的刻板形象,慢慢在高階手機市場也擁有挑戰高通的雄厚本錢,筆者也默默期望聯發科晶片進駐主力 Android 手機的那天(另一個怨念是 iPhone 何時會有螢幕下鏡頭,不要有任何瀏海和動態島,這樣筆者就有說服自己重返 iPhone 的爛藉口了)。

▲ 聯發科 Dimensity 9000(天璣 9000)系列幾乎所有技術規格都為業界頂尖,但能吸引多少手機大廠當作旗艦機心臟,值得慢慢觀察。

聯發科上次嘗試貨真價實的旗艦級系統單晶片,是 2016 年 Helio X20 和 2017 年 Helio X30,之後幾乎沒有任何成功。世界首款台積電 4 奈米製程行動運算系統單晶片的 Dimensity 9000 系列,堪稱聯發科打造不折不扣旗艦晶片的最新成果,創造多項業界第一(Cortex-X2、A710、A510、Mali-G710、LPDDR5X,規格超級暴力的「3 億 2 千萬畫素」影像訊號處理器),無疑代表聯發科這些年來、這些產品世代一路累積的努力。

聯發科行動處理器「人工智慧推論加速單元」歷史,依筆者能考察到的公開資訊,遠不如高通 Hexagon 輝煌,早期不乏外購第三方 DSP IP,但聯發科 APU 也一路進到第六代,並在 2022 年 Hot Chips 34 介紹 Dimensity 9000(搭載第五代APU)議程,闡述聯發科 APU 概貌,並以更簡單易懂的方式,告訴大家「人工智慧引擎」該長什麼樣子。

▲ 聯發科在 Hot Chips 34(2022 年)公開 Dimensity 9000 與 Dimensity 1200 的 APU 效能比較,筆者私心希望台灣晶片設計廠商,能多多參與處理器業界的指標性活動。

但話說回來,看在台灣身為全球 IC 設計第二大國、晶圓代工與封裝測試皆稱霸世界的份上,筆者私心盼望台灣 IC 設計公司能比肩美國大廠,積極在 Hot Chips 和 ISSCC(國際固態電路研討會 International Solid-State Circuits Conference)這種大場面「宣揚國威」,不要只是每年固定看台積電在 IEDM(國際電子元件會議 International Electron Devices Meeting)公布新製程技術細節,否則這些年來,連中國業者都比台灣能見度高。

筆者才疏學淺,沒辦法像高通 Hexagon 整理出完整的聯發科 APU 歷代演進史,乍看簡介也僅勉強寫出「聯發科自研的深度學習加速器(DLA)、視覺處理單元(VPU)、基於硬體的多核調度器與軟體開發包(NeuroPilot),構成先進人工智慧處理單元(APU)核心元件」,但還是可歸納幾個要點:

▲ 這張簡報值得各位慢慢品味,筆者想講的東西都在裡面了。

  • 多樣化的資料精度:INT4(官網倒是沒寫)、INT8、INT16、FP16、BF16。

  • 高能效的乘積和運算陣列(MAC Array):這點的確「英雄所見略同」,從 Google 自家 TPU 到其他競爭對手,樣子都大同小異。

  • 高效率的內部資料交換:利於將好幾個卷積層合併成一層 Layer Fusion。

  • 最小的記憶體資料量:資料壓縮機制。

  • 不同子系統直接資料傳輸:如影像訊號處理器直接跟 APU 互通有無,無須勞駕系統主記憶體,這特性也和高通 Hexagon(與愉快的競爭對手)如出一轍。

▲ 透過「直接傳輸」,減少用系統主記憶體交換不同功能單元資料,所有手機處理廠商都英雄所見略同。

近期聯發科 APU 效能增長,概略如下:

  • Dimensity 9000 的 APU 590,與 Dimensity 1200 的 APU 3.0 相較,整體效能 4.3 倍,能效 2.8 倍。

  • Dimensity 9200 第六代 APU 690 升級共享記憶體引擎,並採新一代雙模 eXtreme 省電模式,相比第五代 APU 590,AI 性能提高 35%,AI 影片超級解析度(AI-SR) 能效提升 45%,AI 降噪(AI-NR)能效提升 30%。聯發科官網強調第六代「混合精度運算」,但從 Hot Chips 演講簡報,可明顯看出此特色並不新鮮,在此不論。

▲ 將訓練好的模型,轉換成混合不同精確度的縮小版,可兼顧移植性、效能、功耗與精確度。

身為土生土長的台灣人,筆者眼睜睜看自己寫出一篇聯發科篇幅遠不及高通的文章,深感愧疚,假以時日若有機會,會特地好好「補完」這塊──假如哪天有辦法挖出詳細資訊,或更實際點,期待聯發科自己做好這件事。

蘋果:樸實無華且枯燥的核心堆堆樂

蘋果永遠玩自己的,然後軟硬皆備的封閉生態系,不必亂槍打鳥,集中一切可動用資源,砸在極少數產品開發案,一步一腳印堆高技術門檻,「Apple Silicon」發展史無非最佳例證,其內「人工智慧」亦不可免俗。

▲ 蘋果的東西都是黑盒子,外人無從窺探,筆者也只能祈禱哪天蘋果願意踏上 Hot Chips 講台,對世人「傳道」Apple Silicon 的奧妙之處,只是機率恐怕比筆者中大樂透還低。

「蘋果神經引擎」(ANE,Apple Neural Engine)是蘋果自研、節能且高吞吐量的神經處理單元(NPU,Neural Processing Unit),用於蘋果晶片機器學習(ML,Machine Learning)推理。身為 A11 處理器的一部分,第一個蘋果神經引擎 2017 年 9 月問世,由兩核心組成,即時處理專用 Animoji 臉部動態表情貼圖和 Face ID 臉部辨識系統,之後 A12 擴展到八核心,但未開放 API 給第三方開發人員。神經引擎的可用性,也從 2017 年 iPhone 擴展到從 A12 開始的 iPad,從 M1 擴展到 Mac。

WWDC 2017,蘋果發表許多應用程式開發框架(Framework),最引人注目的是 Core ML,可讓開發人員替 App 添增機器學習功能,最大限度減少 ML 推理對記憶體容量、應用程式反應能力和設備電池壽命的影響,並號稱不需深入了解神經網路和機器學習知識。這也有助用戶隱私,因推理資料就近保留在 iPhone 等邊緣運算設備,而不是天高皇帝遠的雲端伺服器。

Core ML 對不同類處理器使用不同框架,如 CPU 是 BNNS(Basic Neural Network Subroutines),GPU 是 MPS(Metal Performance Shaders),ANE 則是蘋果私有框架。結果 Core ML 讓 A12 神經引擎運行速度提高到 A11 九倍,功耗僅十分之一。2019 年 9 月發表 A13 的八核神經引擎速度提高 20%,同時功耗降低 15%。蘋果神經引擎部署短時間內大大影響自然語言處理、機器視覺等多領域的 Transformer 模型,可提升十倍速度並減少 14 倍記憶體容量。

毫不意外,蘋果依循慣例一步步擴增核心數,也從未透露技術蛛絲馬跡,更別說歷代變革。筆者可觀察到的,唯有 A12「似乎」開始支援多種資料精準度(預設是 fp16),以及 A15 / M2(蘋果視為第五代 ANE,以此類推世代區隔)對比 A14 / M1 高達 40% 理論性能差距。

▲ 小小 M2 Ultra 版 Mac Studio,最多有理論頻寬 800GB/s 的 192GB 統一記憶體容量,卻可塞入 130GB 大型語言模型,已吸引買不到或買不起頂規專業運算 GPU 開發者。

反倒是蘋果神經引擎在「推理」之外能否「訓練」,不啻是個有趣的茶餘飯後話題,連蘋果開發者論壇都有人提問,左思右想,按照常理,用 MPS 操爆 GPU 再搭配巨大統一記憶體(UMA)容量才是正道,最近部分人工智慧應用開發者「投奔」M2 Ultra 版 Mac Studio,就是不少公司(英特爾和 AMD) 密切關注的時事,儘管訓練效能頂多達 Nvidia 頂級運算卡五分之一或七分之一,但起碼價格一般人還負擔得起,也不會「有錢還買不到」。

話說回來,連英特爾都在構思把部分雲端訓練「典範轉移」到用戶端,蘋果證實積極發展自家生成式 AI 並增加研發經費、但一切仍處於迷霧中時,難道不會懷疑更不會好奇,蘋果是否已想到超越時代想像的獨特玩法了?絕對可能,應該可能,也許可能,希望可能。

下期預告:三星、華為、紫光,與更多領域

爬文至此,假若用力讀完全文,想必大腦瀕臨超載的各位大恩大德,一定和殫精竭慮的筆者一樣,臉上掛著跳動不已的眼皮、抽搐顫抖的嘴角、劫後餘生的表情、看著爛蘋果的眼神,緊緊盯著螢幕,腦中迴盪無數如「有字天書」的技術名詞與產品型號,迴音繞耳,三日不絕。

▲ 不限智慧手機和物聯網邊緣,2019 年 4 月高通以 Cloud AI 100 進軍資料中心推論應用,可見人工智慧戰爭方興未艾。

這是筆者近來少見長文,寫到這裡該做個結尾,恭請各位務必靜待後半篇:三星,華為,紫光,與不知何年何月何日何時才能定稿的「資料中心」和「物聯網」篇。順帶一題,不限智慧手機和物聯網邊緣,高通也寄望發揮先進訊號處理與能源使用效率的雙重優勢,2019 年 4 月宣布資料中心推論專用 Cloud AI 100,理論性能高達 400TOPS,平均每瓦效能大幅超越 Nvidia A100。看來這場科技巨頭紛紛跳下的人工智慧大混戰,還很有得打。

(首圖來源:三星)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0