請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

一覽處理器廠商的「人工智慧推論加速單元」:x86 篇

科技新報

更新於 2023年08月04日13:02 • 發布於 2023年08月07日08:00

人工智慧不僅只是熱潮,更實際影響人類生活之際,所有科技產品都不能免俗具備「人工智慧概念」才能跟上時代潮流,當然個人電腦也是,首當其衝莫過於等同心臟的中央處理器(CPU)。以 x86 指令集相容處理器為例,無論英特爾、AMD 還是某間早被多數人遺忘的台資公司,專門進行「推論」(Inference)作業的「人工智慧推論加速單元」,都是當下「一旦沒有就跟不上流行」的必備武器。

▲ 不只聊天機器人 ChatGPT 和圖像生成 Stable Diffusion,人工智慧也將逐步改變個人電腦應用與風貌。

繼鉅額投資 OpenAI ChatGPT 開花結果,微軟 Windows 12 更是具備大量人工智慧功能的全新作業系統,也勢必逐漸改變個人電腦使用方式,長期苦於「大家都大同小異,只好堆高規格」的個人電腦廠商,更不可能平白放棄做出差異化的契機。因此筆者先簡單介紹 x86 指令集相容處理器的對應方案,以 Arm 為首的 RISC 體系,如蘋果 Neural Engine 和高通 Hexagon NPU,留待後續作品,但至今缺乏客觀比較基準,筆者並不會評定產品優勝劣敗,一切留待時間證明。真得說這是逃避現實的好理由。

▲ 稍微複習一下「從訓練到推論」:想建立自動辨識「狗」的人工智慧辨識系統,首先如同上課,得先讓系統學習特徵,如狗有尾巴、有耳朵、會一直哈氣等,再經特徵篩選機制,將特徵資訊轉成「票數」,過程由多層(Layer)神經網路組成,第一層辨識外型,第二層判斷外型邊緣組成方式,第三層尋找其他特徵資訊等。

歷史有點悠久的英特爾 GNA

說到這裡,不知道是近年行銷宣傳力變弱還是怎樣,英特爾凡跟人工智慧扯上邊的產品和技術,存在感都遠不如 Nvidia 和 AMD。也許各位近期看到規格極優異的 AMD Ryzen 7040 系列 APU,AMD 首度處理器內建 Ryzen AI 的「人工智慧引擎」(AI Engine)會感到十分新奇,但英特爾早就做過這件事很多年了,可能遠比你知道更歷史悠久,更有大書特書的價值。

雖然英特爾官網產品規格頁面隻字未提,但外界據信 2017 年 11 月 11 日 Gemini Lake,和 2018 年 5 月的「10 奈米黑歷史」Cannon Lake(只有 Core i3-8121U 這型號),就搭載第一代 GNA(Gaussian & Neural Accelerator,高斯和類神經加速器),而不是等到 2019 年 Ice Lake。

GNA 是專為語音處理和噪聲抑制等背景工作負載設計的超低功耗專用引擎,同時可為兼顧整體系統效能和反應能力,並釋放 CPU 資源,降低功耗,延長筆電的電池續航力,也因為資料相對公開且完整,很適合解釋推論加速器大致是怎麼一回事:執行最佳化(如兩種主要壓縮技術:刪除不必要權重的「剪枝」,與降低資料精度的「量化」)後的訓練模型,以執行推論作業。

一般來說,這票輔助處理器多半都是一個資料處理寬度很寬的 SIMD(單指令多資料流)執行單元,搭配一塊專屬的記憶體,存放類神經網路層的描述器(Layer Descriptor),包含權重(Weight)、偏誤值(Bias)和分段線性激活函數描述器(PWL Activation Descriptor)等資料。依照英特爾過去案例,處理即時語音辨識時,GNA 效能是時脈 1.1GHz Atom 的三倍,並可降低高達 50% 處理器使用率。

▲ 英特爾 GNA 架構圖解,到頭來,其實大家「人工智慧推論加速器」硬體架構和原理都大同小異。

▲ 空有硬體沒用,軟體開發環境與部署更是人工智慧推論的重中之重,透過 Intel Deep Learning SDK 和 GNA 原生函式庫,將訓練好的模型最佳化成執行環境,推論硬體也不限於 GNA,包括 CPU、GPU 和 FPGA。

Meteor Lake 外掛因併購 Movidius 而來的 VPU

▲ Meteor Lake 的 VPU 來頭可不小,來自 Movidius。

2016 年 9 月 6 日,英特爾宣布收購以電腦視覺處理技術聞名的愛爾蘭新創公司 Movidius,並持續推陳出新 Myriad 系列 VPU(Vision Processing Unit,視覺運算處理器),應用形式涵蓋 USB 介面的「類神經電腦棒」、PCIe 板卡、MiniPCIe 與 M.2 模組。繼 2016 年推出 VPU Myriad 2、2017 年 VPU Myriad X 後,2019 年 11 月發表 Myriad 3400VE / 3500SE / 3700VC Keem Bay 是針對物聯網邊緣運算的第三代 VPU。

▲ 雖然英特爾並未透露太多 Keem Bay 技術細節,但光能耗比和晶片面積效率,就可直接感受到這是不得了的東西。

Keem Bay 採台積電 12 奈米製程,泛用處理器核心從兩個相容 SPARC v8 指令集的 Leon4,改為四個時脈 1.5GHz Arm Cortex-A53,功耗約 6.5W,整體性能超過前代 10 倍(7.1TOPS),推論是 Nvidia Jetson TX2 近 4 倍、比華為海思 Ascend 310(16TOPS,18W)快 25%,特定情況每瓦性能比競爭對手產品高 6.2 倍,每平方晶片面積 8.7 倍,如果進一步充分利用 OpenVINO 工具包,能再獲得 50% 性能。

如前代 Myriad X,Keem Bay 配置 16 個可程式化 128 位元 VLIW 向量處理器 SHAVE,與超過 2.5MB 的晶片內專屬記憶體,最多擴展至 8 顆 VPU,可用來建置獨立系統,並適用同時處理多台攝影機的影像串流。

▲ 如果英特爾原封不動將 Keem Bay 的 IP 移植到 Meteor Lake,並認真與軟體合作夥伴開發潛力,屆時可提升的「使用者體驗」應很值得期待。

英特爾第 13 代 Core 處理器 Raptor Lake 個人電腦,可藉另外安裝 Movidus VPU,強化人工智慧推論效率,並啟用為協同合作與串流應用程式,提供高品質背景模糊、視線接觸和自動構圖的新 Windows Studio 效果(Windows Studio Effects)。

此外,英特爾 5 月底披露 Meteor Lake 的 SoC 區塊(Tile)將具備源自 Movidius 的 VPU,為專用但低功耗的人工智慧推論加速器,用於不需要 GPU 性能(和功耗)的持續性工作負載。值得注意的是,為了維持 GNA 軟體相容性,如語音喚醒等功能,Meteor Lake 依然保留 GNA 為超低功耗(比 VPU 低)的輔助角色。

▲ 英特爾宣稱 VPU 應用不限 Windows Studio Effects,不僅要與許多軟體合作夥伴一同開發新應用,並擘畫目標放遠到「把工作負載從雲端拉回到個人電腦」的願景。

同樣也因 AMD 併購賽靈思取得的 AIE

▲ 太陽底下沒有新鮮事,賽靈思很久以前就講過推論處理器技術概觀了。

AMD 在 2022 年 2 月完成併購 FPGA 第一大廠賽靈思,逐步整合技術至 Zen 4 世代處理器,Ryzen Mobile 7040 Phoenix 率先配置源自賽靈思 XDNA 架構的 Ryzen AI 輔助處理器,可增強人工智慧推論效能,並直接支援 Windows 11 的 Studio Effects。這 AI 引擎含一個 VLIW 的 SIMD 向量處理器和 32KB 資料記憶體,專注通訊用數位訊號處理、視訊和影像處理、人工智慧推論,單一 AI 引擎模組(AIE Tile)可同時執行 128 個 INT8 乘積和運算。總之,英雄所見略同,大家做的東西看起來都很像。

▲ AMD 從賽靈思搬到 APU 的「人工智慧引擎」,同時支援四種資料格式,峰值效能上看 10TOPS,到時跟英特爾火拚一定很精彩,假如有合理比較基準。

AMD 尚未發表 Ryzen Mobile 7040 規格細節,看來是總計 20 個 AIE 模組和 5 個記憶體模組,峰值理論效能高達 10 TOPS,不過屆時 Windows 11 實際表現,就會告訴大家這技術的真正價值。該如何公平較量不同處理器廠商「使用者體驗」,也將是指日可待的熱門議題。

同場加映:威盛電子 Centaur CHA 的 Ncore

2021 年 11 月 5 日,威盛電子(VIA)宣佈將旗下全資子公司 Centaur,以 1.25 億美元賣給英特爾,意味 2019 年 11 月 18 日 Centaur 發表「x86 世界首款內建人工智慧輔助處理器」(當然不是,很明顯英特爾 GNA 更早)的「伺服器系統單晶片」CHA,並預定 2020 下半年量產,從此胎死腹中,只留下網路四處流傳的「連單核效能都不如 AMD 推土機」的糟糕評價。

▲ 追求「簡單、迅速、便宜」的 Centaur,2016 年開始研發 CHA,有戲稱「AVX-32768」的 Ncore人 工智慧輔助處理器並相容 AVX-512 指令集,以 5G 邊緣運算伺服器為主要市場。但 CNS 核心微架構的複雜度,僅勉強接近 2013 年英特爾 Haswell 水準。

半退休 Centaur 創辦人 Glenn Henry 親手操刀的 Ncore,採取戲稱「AVX-32768」超寬 SIMD 架構執行單元,藉由理論值 20TB/s 的 16MB SRAM 確保穩定傳輸頻寬,當執行推論常用的 INT8 短整數,理論效能為 20.5TOPS,因支援 Bfloat16(BF16)浮點格式,好像應可執行輕量訓練,乍看很不錯,但也沒有讓它證明自己的機會了。

▲ 相較英特爾 GNA 和 Movidius VPU 及 AMD 的 Ryzen AI,Centaur CHA 處理器 Ncore 暴力規格頗具看頭,但也沒有讓它發揮實力的可能了,況且就算順利上市,軟體開發環境也會是大問號。

人工智慧將如何重新定義個人電腦,是很有趣的話題

先將冷冰冰的技術束之高閣,先回想這段期間人工智慧造成的巨大震撼,接著再思索個人電腦的未來。

惠普(HP)執行長 Enrique Lores 5 月 30 日接受媒體採訪時表示,人工智慧將從根本上改變個人電腦產業,幫助我們重新定義個人電腦究竟是什麼,惠普也與主要軟硬體供應商合作,開發支援人工智慧的個人電腦,能幾秒內創建電子表格並分析資料,推動創新客戶需求,並 2024 年上市產品。

微軟近日全球合作夥伴年度大會,宣布「AI 助手」Microsoft 365 Copilot 價格:每月 30 美元,比 ChatGPT 的 20 美元還貴,但付費後使用 Office 軟體時,就有 Copolit 小幫手協助辦公,如 Outlook 幫忙擬稿、Word 幫寫文案、Excel 教你複雜函數、PowerPoint 可用文字一鍵生成簡報,甚至 Teams 可根據會議內容自動產生會議紀錄等,這些過去看似科幻小說的場景,一步步成為現實,並極可能徹底改變人類工作型態,以及人類與電腦互動的方式。

▲ 人類已進入人工智慧的「史普尼克」(蘇聯發射的人類第一顆衛星)時刻,個人電腦也將迎接史上最大變革。

我們有充分理由相信,很久沒有新花樣、彷彿一灘死水的 Windows 個人電腦,即將迎接名為「人工智慧大革命」的劇烈變革,顛覆世人對個人電腦的刻板印象。但話說回來,蘋果到底會如何布局生成式AI,迎合 Mac 使用者對人工智慧助理的期待,相信也將是所有人高度關注的焦點,與無數媒體工作者養家活口的主題。在這之前,恐怕不乏以「蘋果要鉅資建立自有算力,然後哪些概念股會先大漲」當理由,拚命鼓勵投資人盡快買進哪些公司股票的新聞吧?

(首圖來源:Image by Freepik

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0