請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(上)

科技新報

更新於 2023年08月22日13:39 • 發布於 2023年08月23日08:00

對現代人來說,人手一支、形影不離的智慧手機(Smart Phone),整合了多數可攜帶式電子裝置角色,從行動網路、數位相機、數位攝影機、媒體播放器、可攜式電子遊戲機、錄音筆,甚至「交通卡」、「電子錢包」、「手電筒」和「噪聲檢測器」等透過行動應用程式(Mobile App)擴充的琳瑯滿目功能,使智慧手機「對一般生活的必要性」遠超過個人電腦,弄丟手機這件事,搞不好比弄丟錢包還嚴重。

▲ 如果搭上時光機跟十年前筆者說:你以後會在手機花超過 4 萬元,一定會被當成神經病,但這就是現在智慧手機對生活的重要性。(Source:三星)

也因此,消費者寧可掏出 3、4 萬元甚至更多,購入最新且建議售價節節高升的旗艦級手機(筆者 2 月入手三星 Galaxy S23 Ultra 一舉「翻倍」歷年升級主力手機的預算紀錄),卻不見得願意付同樣代價買個人電腦,即使後者料件成本(BOM Cost)可能較高,所謂「價值決定價格」大概就這麼回事。基於同樣道理,智慧手機議題,特別是持續推陳出新的系統單晶片(SoC,System on Chip),更能吸引科技狂熱者目光,反觀個人電腦,越來越冷門、越來越乏人問津,彷彿被多數人遺忘。

繼上一篇〈人工智慧推論加速單元:x86 篇〉,本文筆者焦點轉向智慧手機處理器「御三家」:「手握六成 5G 基頻晶片的高階 Android 手機王者」高通(Qualcomm)、急起直追的「台灣之光、手機市占率之王」聯發科(MediaTek)、「總是關起門自己玩」的蘋果(Apple),稍晚登場的下一篇則是「處境略為尷尬的三星(Samsung) 獵戶座(Exynos)」、「快被美國半導體制裁活活打趴在地上的華為海思麒麟(Kirin)」與「今夏精彩上演股東大亂鬥的紫光展銳(UniSOC)」三個陪榜者,共六位智慧手機晶片參賽者。

▲ 從 2G 到 5G,數量驚人的行動通訊技術專利一直是高通王牌,也是長期獨領風騷的基礎。

但平心而論,數位訊號處理器(DSP,Digital Signal Processor)對智慧手機重要性,遠超過個人電腦的 x86 指令集相容處理器,所以各位才更該多看好幾眼。也許各位並不熟悉 DSP 是什麼,簡而言之,DSP 基本思想是「介於高度靈活的 CPU 和高效能固定功能硬體(視訊影音解碼器之類)的中間點」,DSP 可像 CPU 編程,但應用限制較嚴格,只能完成種類有限的運算負載,如使用特殊指令,激增快速傅立葉轉換(Fast Fourier Transform,FFT)等訊號處理關鍵演算法。可編程、速度雖快但功能受限,是 DSP 最貼切的寫照。

專職輔助運算處理器對追求省電的手機有舉足輕重重要性

如小型電腦的智慧手機,隨時隨地執行大量應用程式,如何竭盡所能降低功耗以延長電池續航,一直是打造智慧手機的重中之重,論「能耗比」,x86 處理器早看不到這票智慧手機系統單晶片的車尾燈,無論蘋果自研晶片還是無數 Android 手機的心臟。蘋果個人電腦處理器之所以驚人,也都是建立在智慧手機的基礎之上。

尤其當人工智慧發展,從「雲端」(Cloud)逐漸轉至「終端」(Edge,或稱「邊緣」),涵蓋拍照、攝影、影音串流和遊戲等應用場景,以提升服務回應速度。以拍照攝影為例,人臉偵測、物體追蹤、雜訊抑制、判別景深、白平衡、高動態範圍影像、路人模糊化等林林總總「特效」,總不能統統送上雲端處理再回傳吧?智慧手機勢必有支撐這些應用的「算力」,也對手機處理器造成功耗難題,採量身訂做的專用輔助處理器,就成為所有全部廠商的方向,且發生時間點遠早於 x86 處理器陣營。

▲ 聯發科 Hot Chips 34(2022 年)演講簡報,道盡智慧手機「最基本人工智慧」應用有哪些。

這票手機處理器「電腦最基礎語言」清一色是 ARM 指令集架構(RISC-V 會不會崛起尚在未定之天),亦定義 SIMD(單指令多資料流)指令與運算單元,如固定 128 位元寬的 Neon 和 128~2,048 位元彈性的 SVE(Scalable Vector Extension,極度偏向純種向量處理器的優異理念),但說到底,缺乏完全獨立的資料暫存器、記憶體、快取記憶體與匯流排,都是依附 CPU 核心的產物,別說省電,一用起來沒激增 CPU 功耗還附贈降低時脈就阿彌陀佛了(英特爾 AVX 指令集是很好的前車之鑑),難兼顧效能和功耗。

各位可能疑惑:現在雲端服務業者為了建置人工智慧算力,紛紛捧著鈔票搶著購買 Nvidia 高階 GPU,近代手機晶片也普遍搭配性能不弱的 GPU,為何手機也不乾脆走向 GPGPU 呢?道理很簡單,即便 GPU 在大量平行運算有壓倒性性能優勢,但也容易激增行動運算平台致命的高功耗,況且 GPU 是否完全符合邊緣運算的 AI 需求也是個大問號。

故可看到手機處理器廠商,有志一同積極自研「人工智慧推論加速單元」和軟體開發套件,沒有例外。畢竟想到新手機的拍照功能,可藉人工智慧協助(這算不算「作弊」就見仁見智了),達成過去只有高階單眼相機和頂級鏡頭才能有的效果,就不難想見這塊市場有多兵家必爭。

高通:歷史悠久的 Hexagon 數位訊號處理器

論歷史悠久,如果 x86 處理器領域有英特爾 GNA(Gaussian & Neural Accelerator,高斯和類神經加速器)為代表,ARM 手機處理器世界的象徵王者,就莫過於以 Snapdragon(驍龍)之名顯赫於世、高階 Android 手機晶片的王者高通(Qualcomm)Hexagon DSP(QDSP6,指高通第六代數位訊號處理器)了,兼具 CPU 和 DSP 功能,可充分對應行動運算平台對多媒體和數據機的需求,像 4K 影像後處理和上億畫素相機連拍處理等。

▲ 距 2004 秋天年高通研發 Hexagon DSP(數位訊號處理器)已近 20 年過去,隨著智慧手機市場急速成長,Hexagon 也因 Snapdragon 大賣,成為最具代表性的 DSP。

拜搭上急速擴展智慧手機市場順風車之賜,2012 年估計,高通 2011 年售出系統單晶片含 12 億個 Hexagon DSP(平均每 SoC 有 2.3 個),2012 年更成長到 15 億個之譜,使 QDSP6 躍升「出貨量最多」的 DSP 架構,繼德州儀器(TI)TMS320 家族後,處理器世界最具指標性的 DSP 當然值得大書特書、寫出與其相襯的巨大篇幅。回顧漫長歷史,說 Hexagon DSP 是現今全體智慧手機的人工智慧縮影,實當之無愧。

▲ 除了高通 2004 年秋季啟動 Hexagon DSP 研發,也早在 2007 年就著手研究人工智慧究,兩者於 2016 年 Hexagon 680 DSP(Snapdragon 820) 交叉,讓 Hexagon 進化成「高通人工智慧推論引擎」。

早在 2004 年秋季,高通就開始發展 Hexagon(「六邊形」之意) 數位訊號處理器,2011 年啟動「Hexagon Access」計畫,允許客戶編程。高通 2012 年 Snapdragon S4(MSM8960)有三個 QDSP6 核心,兩個位於數據機子系統,剩下一個放在多媒體子系統,前者僅高通能用,後者開放客戶開發程式。

2012 年幾乎所有高通商用 4G LTE 數據機,都有數個演化到第五代的 Hexagon DSP 身影。2013 年,高通發表 Hexagon DSP 開發環境,即 Hexagon SDK,並首度於處理器業界年度盛會 Hot Chips 25,公開第五代 Hexagon DSP 的技術細節。

打從一開始,以追求能耗效率為前提,Hexagon DSP 微架構結合可變指令編碼長度、單指令多資料流(SIMD)的超長指令集(VLIW,最多塞入兩個記憶體存取指令與兩個向量運算指令)與硬體多執行緒,力求每個時脈週期可平行處理更寬的資料,但維持較低時脈。就高通觀點,超長指令集與多執行緒是互補技術,後者可隱藏管線延遲(實際效果也在 2012 年英特爾 Itanium 9500 Poulson 得到證實),並便於編譯器更有效排程指令。

▲ 最初 Hexagon DSP 採用四指令包的超長指令集(VLIW)架構,可在單一指令執行最多兩個 64 位元向量運算和兩個記憶體存取。

Hexagon DSP 的硬體執行緒數量,隨著各種產品和應用程式需要,幾代以來一直變化,最初 Hexagon V1 支援六執行緒,到 Hexagon V4 變成三個,Hexagon V5 進一步將原本簡單的交錯式執行緒(IMT,Interleaved Multi-Threading)升級為動態多執行緒(DMT,Dynamic Multi-Threading),碰到 L2 快取未命中、中斷等待或執行特殊指令集,才會切換執行緒,大致可視為粗質多執行緒(CMT,Coarse Multi-Threading)類別。

▲ 打從一開始,高通 Hexagon DSP 就兼具超長指令集和硬體多執行緒,後者可掩蓋指令執行延遲。因應不同時期的應用需求,高通也一直修正 Hexagon 多執行緒數量與切換方式。

高通從 2007 年就著手類神經網路研究,接著人工智慧發展史就如我們熟知,基於深度學習的卷積神經網路經典模型 AlexNet 贏得 2012 年 ImageNet 大規模視覺辨識挑戰賽,後來 Google 買下創造 AlexNet 的 DNNreseach,提前預言人工智慧即將出現大霹靂,也影響 Hexagon DSP 的發展目標。

2015 年 Hot Chips 27,高通發表 Snapdragon 820 處理器,帶來飛躍性技術進步的 Hexagon 680 DSP,就有幸躬逢其盛的筆者印象所及,上演吸引不少科技媒體爭相撰文報導的盛況。但就後見之明,眾多技術名詞背後,Hexagon 680 DSP 對高通的真正意義,是這些文章多半沒有點出來的:這是「第一世代高通人工智慧推論引擎」(First Gen Qualcomm AI Engine),讓高通處理器踏出邁入人工智慧推論作業的第一步。

前面稍微提到隨便一顆高通系統單晶片,動輒用到數個 Hexagon DSP,就順便來瞧瞧筆者第一支三星手機 Galaxy S7 的心臟:Snapdragon 820,除了既定輔佐 CPU 和 GPU 的「計算用 DSP」(Compute DSP)、協助行動通訊網路訊號處理的「數據機 DSP」(Modem DSP),隨時維持常態運作(Always On)的低功耗功能區塊(Low Power Island)又放了專門連接各式各樣感測器(三軸加速度、陀螺儀、GPS 等)、作用相當於一個「Sensor Hub」的「低功耗 DSP」(Low Power DSP),幫助取得整合並處理不同感測器的數據,且不耗用 CPU 運算能量。

▲ 一顆系統單晶片往往用到數顆 Hexagon DSP,像 Snapdragon 就用到三顆,分別計算工作、數據機訊號處理、控制周邊感測器。

相對於「先賢先烈」,QDSP6 第六世代的 Hexagon 680 有以下創新:

  • Hexagon 680「最重要,沒有之一」的功能:Hexagon 向量擴展(HVX,Hexagon Vector eXtensions),旨在處理圖像處理應用程式的大量計算負載,像虛擬實境、增強實境、圖像處理、視訊處理和計算機視覺等,有 1,024 位元寬向量資料暫存器,因 Hexagon 超長指令一次最多含四個運算,所以每時脈週期最多可處理 4,096 位元寬資料。Hexagon 680 的兩個 HVX 向量運算,可由任意兩個純量運算執行緒控制。L2 快取記憶體是 HVX 向量執行單元可存取的第一層記憶體,而非容量有限的 L1 快取。

▲ 將向量長度從 64 位元一舉激增到 1,024 位元的 HVX(Hexagon Vector eXtensions)向量擴展,不只單 SIMD 指令擴充這麼簡單,更是替 Hexagon DSP 打開踏入人工智慧的大門,也讓 Hexagon 680 DSP 成為「高通第一世代人工智慧推論引擎」。

  • 從前代三執行緒擴展為四執行緒,每個執行緒以 500MHz 時脈運行。L2 快取記憶體可「軟分割」成數塊,分配給不同執行緒與執行單元(總計四個純量,兩個向量),再結合賦予執行緒不同優先權的 QoS(Quality of Service)機能,有助音效和影像運算,不會同時爭搶 Hexagon 680 的執行時間。

▲ Hexagon 680 DSP 的硬體多執行緒由四個時脈 500MHz 組成,因同時僅兩個執行緒執行純量運算、兩個執行緒負責向量運算,所以個別等於 1GHz 理論效能。

  • 減少無謂資料搬移與複製、避免頻繁經晶片外部 DRAM 主記憶體,交換不同功能單元的資料,是兼備高效能和低功耗的良方。Snapdragon 820 的 Hexagon 680 能將來自相機影像感測器數據,直接傳到 L2 快取,再分享給影像訊號處理器(ISP,Image Signal Processor)。此外,Snapdragon 820 系統記憶體管理單元(SMMU,System Memory Management Unit)也允許晶片其他功能單元,毋需額外複製就與 CPU 共享資料。

▲ 讓影像等資料流可藉 Hexagon 的 L2 快取記憶體互通有無,不用透過系統主記憶體,不僅大幅縮短傳輸延遲,更能降低整體功耗。

總之,以 Snapdragon 820 和 Hexagon 680 為起點,高通行動運算處理器打開「人工智慧天堂」大門,雖然世人普遍意識到 AI 對智慧手機如此重要,也是好幾年後的事了,從 iPhone 7 後跳槽至三星手機的筆者,到現在也還是傻傻搞不清楚 Hexagon 680 和 685 到底貢獻三星 Galaxy S7 和 S9+(港版)哪些讓筆者很爽的使用者體驗,唯一可猜到的是 Spectra ISP 種種功能,其實都是這些「無名英雄」默默幹的好事。

2019 年 Snapdragon 855「第四代 AI 引擎」Hexagon 690 是重大升級,重點如下:

▲ Snapdragon 855 的 Hexagon 690 倍增向量運算執行單元,並擴增張量(Tensor)加速器和語音助理,漸漸越來越有「人工智慧」的模樣。

  • 倍增向量執行單元至四個,直接加倍理論運算效能。

  • 新增張量(Tensor)加速器,這名詞想必各位現在都不陌生。

  • 追加 Google Assistant 和百度 DuerOS 等人工智慧對話功能會用到的語音助理。

2021 年 Snapdragon 888 的「第六代 AI 引擎」Hexagon 780,不僅將 QDSP6 推進到第七世代,整個 IP 設計更頗有「砍掉重練」味道:

▲ Snapdragon 888 的 Hexagon 780 DSP 將純量、張量和向量執行單元整合為單一 IP 區塊,大幅提升性能與靈活性,即使如此重大技術突破還是無法扭轉 Snapdragon 888 因過熱翻車的事實。

  • 先前純量、向量和張量執行單元,都是各自獨立散布於 Hexagon 600 系列家族,但 Hexagon 780 整合為單一「融合式 AI 加速器」(Fused AI accelerator)IP 區塊,大大提高混合三種運算的工作負載處理效率。高通對新設計感到「非常興奮」,表示性能和靈活性遠超出其他公司「DSP 與 AI 推理引擎分而治之」(往往還是不同 IP 來源)的水準。

  • 純量理論效能提升 50%,張量理論效能倍增,Hexagon 內建的共享 SRAM 容量增加 16 倍。至於網路鄉民念茲在茲的「能耗比」,Hexagon 780 是上世代的三倍。

2022 年 Snapdragon 8 Gen1 的 Hexagon 790,提供混合 INT8 / INT16 精準度。2023 年「完成度極高」的 Snapdragon 8 Gen 2,型號不明的 Hexagon,不但多出 INT4 格式,總體理論效能更是 Hexagon 790「4.35 倍」,不禁讓人懷疑這是不是全新的第八代。

很剛好的,8 月 29 日 HotChips 35 第二天,有場名為「Qualcomm Hexagon Tensor Processor」的高通議程,屆時極可能將一窺廬山真面目,或許會更了解三星 S23 Ultra 足堪「演唱會追星神器」重任的超強望遠鏡頭,究竟是被多強大的運算效能支撐。只可惜筆者並不愛看演唱會,更遑論「追星」,只純粹覺得 S23 Ultra「獵殺」交通違規車輛車牌,實在是超級無敵天殺好用。

▲ 高通將在 Hot Chips 35 第二天公開 Hexagon NPU 技術細節,表現極為出色的 Snapdragon 8 Gen 2,其「人工智慧」能耐很快就會有答案了。

聯發科:泛用各種類型晶片的 APU

智慧手機市場從 2020 年第三季,正好是 5G 世代 Dimensity(天璣)踏進市場,台灣聯發科首次市占率超車高通後,至今未失去龍頭地位,穩定吃下近 40% 市占。經中國山寨手機市場起家的聯發科,也漸漸擺脫「低階破壞式創新」和「一核有難,多核圍觀」的刻板形象,慢慢在高階手機市場也擁有挑戰高通的雄厚本錢,筆者也默默期望聯發科晶片進駐主力 Android 手機的那天(另一個怨念是 iPhone 何時會有螢幕下鏡頭,不要有任何瀏海和動態島,這樣筆者就有說服自己重返 iPhone 的爛藉口了)。

▲ 聯發科 Dimensity 9000(天璣 9000)系列幾乎所有技術規格都為業界頂尖,但能吸引多少手機大廠當作旗艦機心臟,值得慢慢觀察。

聯發科上次嘗試貨真價實的旗艦級系統單晶片,是 2016 年 Helio X20 和 2017 年 Helio X30,之後幾乎沒有任何成功。世界首款台積電 4 奈米製程行動運算系統單晶片的 Dimensity 9000 系列,堪稱聯發科打造不折不扣旗艦晶片的最新成果,創造多項業界第一(Cortex-X2、A710、A510、Mali-G710、LPDDR5X,規格超級暴力的「3 億 2 千萬畫素」影像訊號處理器),無疑代表聯發科這些年來、這些產品世代一路累積的努力。

聯發科行動處理器「人工智慧推論加速單元」歷史,依筆者能考察到的公開資訊,遠不如高通 Hexagon 輝煌,早期不乏外購第三方 DSP IP,但聯發科 APU 也一路進到第六代,並在 2022 年 Hot Chips 34 介紹 Dimensity 9000(搭載第五代APU)議程,闡述聯發科 APU 概貌,並以更簡單易懂的方式,告訴大家「人工智慧引擎」該長什麼樣子。

▲ 聯發科在 Hot Chips 34(2022 年)公開 Dimensity 9000 與 Dimensity 1200 的 APU 效能比較,筆者私心希望台灣晶片設計廠商,能多多參與處理器業界的指標性活動。

但話說回來,看在台灣身為全球 IC 設計第二大國、晶圓代工與封裝測試皆稱霸世界的份上,筆者私心盼望台灣 IC 設計公司能比肩美國大廠,積極在 Hot Chips 和 ISSCC(國際固態電路研討會 International Solid-State Circuits Conference)這種大場面「宣揚國威」,不要只是每年固定看台積電在 IEDM(國際電子元件會議 International Electron Devices Meeting)公布新製程技術細節,否則這些年來,連中國業者都比台灣能見度高。

筆者才疏學淺,沒辦法像高通 Hexagon 整理出完整的聯發科 APU 歷代演進史,乍看簡介也僅勉強寫出「聯發科自研的深度學習加速器(DLA)、視覺處理單元(VPU)、基於硬體的多核調度器與軟體開發包(NeuroPilot),構成先進人工智慧處理單元(APU)核心元件」,但還是可歸納幾個要點:

▲ 這張簡報值得各位慢慢品味,筆者想講的東西都在裡面了。

  • 多樣化的資料精度:INT4(官網倒是沒寫)、INT8、INT16、FP16、BF16。

  • 高能效的乘積和運算陣列(MAC Array):這點的確「英雄所見略同」,從 Google 自家 TPU 到其他競爭對手,樣子都大同小異。

  • 高效率的內部資料交換:利於將好幾個卷積層合併成一層 Layer Fusion。

  • 最小的記憶體資料量:資料壓縮機制。

  • 不同子系統直接資料傳輸:如影像訊號處理器直接跟 APU 互通有無,無須勞駕系統主記憶體,這特性也和高通 Hexagon(與愉快的競爭對手)如出一轍。

▲ 透過「直接傳輸」,減少用系統主記憶體交換不同功能單元資料,所有手機處理廠商都英雄所見略同。

近期聯發科 APU 效能增長,概略如下:

  • Dimensity 9000 的 APU 590,與 Dimensity 1200 的 APU 3.0 相較,整體效能 4.3 倍,能效 2.8 倍。

  • Dimensity 9200 第六代 APU 690 升級共享記憶體引擎,並採新一代雙模 eXtreme 省電模式,相比第五代 APU 590,AI 性能提高 35%,AI 影片超級解析度(AI-SR) 能效提升 45%,AI 降噪(AI-NR)能效提升 30%。聯發科官網強調第六代「混合精度運算」,但從 Hot Chips 演講簡報,可明顯看出此特色並不新鮮,在此不論。

▲ 將訓練好的模型,轉換成混合不同精確度的縮小版,可兼顧移植性、效能、功耗與精確度。

身為土生土長的台灣人,筆者眼睜睜看自己寫出一篇聯發科篇幅遠不及高通的文章,深感愧疚,假以時日若有機會,會特地好好「補完」這塊──假如哪天有辦法挖出詳細資訊,或更實際點,期待聯發科自己做好這件事。

蘋果:樸實無華且枯燥的核心堆堆樂

蘋果永遠玩自己的,然後軟硬皆備的封閉生態系,不必亂槍打鳥,集中一切可動用資源,砸在極少數產品開發案,一步一腳印堆高技術門檻,「Apple Silicon」發展史無非最佳例證,其內「人工智慧」亦不可免俗。

▲ 蘋果的東西都是黑盒子,外人無從窺探,筆者也只能祈禱哪天蘋果願意踏上 Hot Chips 講台,對世人「傳道」Apple Silicon 的奧妙之處,只是機率恐怕比筆者中大樂透還低。

「蘋果神經引擎」(ANE,Apple Neural Engine)是蘋果自研、節能且高吞吐量的神經處理單元(NPU,Neural Processing Unit),用於蘋果晶片機器學習(ML,Machine Learning)推理。身為 A11 處理器的一部分,第一個蘋果神經引擎 2017 年 9 月問世,由兩核心組成,即時處理專用 Animoji 臉部動態表情貼圖和 Face ID 臉部辨識系統,之後 A12 擴展到八核心,但未開放 API 給第三方開發人員。神經引擎的可用性,也從 2017 年 iPhone 擴展到從 A12 開始的 iPad,從 M1 擴展到 Mac。

WWDC 2017,蘋果發表許多應用程式開發框架(Framework),最引人注目的是 Core ML,可讓開發人員替 App 添增機器學習功能,最大限度減少 ML 推理對記憶體容量、應用程式反應能力和設備電池壽命的影響,並號稱不需深入了解神經網路和機器學習知識。這也有助用戶隱私,因推理資料就近保留在 iPhone 等邊緣運算設備,而不是天高皇帝遠的雲端伺服器。

Core ML 對不同類處理器使用不同框架,如 CPU 是 BNNS(Basic Neural Network Subroutines),GPU 是 MPS(Metal Performance Shaders),ANE 則是蘋果私有框架。結果 Core ML 讓 A12 神經引擎運行速度提高到 A11 九倍,功耗僅十分之一。2019 年 9 月發表 A13 的八核神經引擎速度提高 20%,同時功耗降低 15%。蘋果神經引擎部署短時間內大大影響自然語言處理、機器視覺等多領域的 Transformer 模型,可提升十倍速度並減少 14 倍記憶體容量。

毫不意外,蘋果依循慣例一步步擴增核心數,也從未透露技術蛛絲馬跡,更別說歷代變革。筆者可觀察到的,唯有 A12「似乎」開始支援多種資料精準度(預設是 fp16),以及 A15 / M2(蘋果視為第五代 ANE,以此類推世代區隔)對比 A14 / M1 高達 40% 理論性能差距。

▲ 小小 M2 Ultra 版 Mac Studio,最多有理論頻寬 800GB/s 的 192GB 統一記憶體容量,卻可塞入 130GB 大型語言模型,已吸引買不到或買不起頂規專業運算 GPU 開發者。

反倒是蘋果神經引擎在「推理」之外能否「訓練」,不啻是個有趣的茶餘飯後話題,連蘋果開發者論壇都有人提問,左思右想,按照常理,用 MPS 操爆 GPU 再搭配巨大統一記憶體(UMA)容量才是正道,最近部分人工智慧應用開發者「投奔」M2 Ultra 版 Mac Studio,就是不少公司(英特爾和 AMD) 密切關注的時事,儘管訓練效能頂多達 Nvidia 頂級運算卡五分之一或七分之一,但起碼價格一般人還負擔得起,也不會「有錢還買不到」。

話說回來,連英特爾都在構思把部分雲端訓練「典範轉移」到用戶端,蘋果證實積極發展自家生成式 AI 並增加研發經費、但一切仍處於迷霧中時,難道不會懷疑更不會好奇,蘋果是否已想到超越時代想像的獨特玩法了?絕對可能,應該可能,也許可能,希望可能。

下期預告:三星、華為、紫光,與更多領域

爬文至此,假若用力讀完全文,想必大腦瀕臨超載的各位大恩大德,一定和殫精竭慮的筆者一樣,臉上掛著跳動不已的眼皮、抽搐顫抖的嘴角、劫後餘生的表情、看著爛蘋果的眼神,緊緊盯著螢幕,腦中迴盪無數如「有字天書」的技術名詞與產品型號,迴音繞耳,三日不絕。

▲ 不限智慧手機和物聯網邊緣,2019 年 4 月高通以 Cloud AI 100 進軍資料中心推論應用,可見人工智慧戰爭方興未艾。

這是筆者近來少見長文,寫到這裡該做個結尾,恭請各位務必靜待後半篇:三星,華為,紫光,與不知何年何月何日何時才能定稿的「資料中心」和「物聯網」篇。順帶一題,不限智慧手機和物聯網邊緣,高通也寄望發揮先進訊號處理與能源使用效率的雙重優勢,2019 年 4 月宣布資料中心推論專用 Cloud AI 100,理論性能高達 400TOPS,平均每瓦效能大幅超越 Nvidia A100。看來這場科技巨頭紛紛跳下的人工智慧大混戰,還很有得打。

(首圖來源:三星)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

英特爾已測試涉中晶片設備 外界憂可能用於先進製程

路透社
02

毛利率警示引發AI報酬疑慮 博通股價重挫11%

路透社
03

路透:輝達擬提高H200晶片產量 因應中國強勁需求

路透社
04

鴻海高雄Y15聯開案來了!砸159億打造南台灣旗艦總部、30%容積建安心宅:給足員工福利移居亞灣

今周刊
05

美參議員華倫籲黃仁勳出席聽證 說明川普售中國晶片決策

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...