NVIDIA Jetson™ 教戰!Workshop 分享 AI 機器人怎麼在邊緣端實現視覺應用
AI 技術飛快發展,機器人可以在邊緣端實現哪些應用?TechOrange 與 NVIDIA、 AWS 共同主辦「AI 機器人產業論壇」,特別在當天下午加開 AI 機器人視覺系統 Workshop,邀請國立台灣科技大學資訊工程學系兼任助理教授/NVIDIA Training 白金校園大使曾吉弘主講,以「機器人感知技術:於邊緣端實現各種 AI 視覺應用」為題,提供諸多實戰經驗談。
Workshop 除了探討邊緣 AI,也針對 NVIDIA 相關技術發展進行深入探討,一共分為三大部分:邊緣 AI、機器視覺函式庫,和生成式 AI 模型。曾吉弘表示,AI 不只是桌上型電腦才能駕馭的事,越來越多邊緣裝置也想要、需要導入 AI,所以各家公司努力開發 AI 晶片以及可運行 AI 的邊緣裝置。其中,最早發展的 AI 應用是機器視覺,並有越來越高的要求。
那麼,為何要在地端(邊緣)執行 AI 運算?曾吉弘歸納出三大主要原因:降低延遲、降低功耗以及保護隱私。他表示,資料在雲端伺服器之間來回傳送需要時間,無法做到即時,也無法滿足必須在指定時間內回應的應用;為了資料往返所維護的網路環境,也是可觀的成本。再者,邊緣 AI 相對於雲端 AI,耗能必定較低,即便使用藍芽也一樣。最後,客戶個資或企業商業機密多數時候並不適合在網路上傳送,以上原因都是邊緣 AI 的催化劑。
NVIDIA Jetson™ 教戰!可做到哪些機器視覺任務?
Workshop 另一焦點是 NVIDIA Jetson™。Jetson 是機器人和邊緣 AI 應用平台,NVIDIA Jetson Orin™ 系列產品包括多款系列如 Jetson Orin Nano™、Jetson AGX Orin 等 ,曾吉弘提醒,Jetson 平台與一般電腦不同,記憶體規格在出廠時就已固定,無法後續擴充。因此,在選擇 Jetson 模組時,就必須根據實際的 AI 模型大小和效能需求進行評估。
為了簡化機器視覺應用的開發與部署,NVIDIA 針對 Jetson 提供開源軟體專案 Jetson Inference ,內建了許多機器學習模型、範例,可更快實現圖像分類、物件偵測和圖像分割等常見的電腦視覺任務。
曾吉弘表示,圖像分類任務的挑戰在於,背景被擾亂的時候,是否仍能有好的辨識效果。在物件偵測方面,會使用邊界框把特定物件框起來,並能辨識物件類別和信心指數;而圖像分割部分,則能進行像素級的物件辨識,很常用在無人機的場景理解、AI 去背任務。他提及,Jetson邊緣運算平台完整支援 CUDA 與 NVIDIA TensorRT™ 等加速運算函式庫,可進一步提升執行效能。
曾吉弘分享,Jetson Inference 雖已針對不同的 AI 應用提供立即性的解決方案,但如果卡關的,會搭配兩種方法解決:第一個是改神經網路模型的架構,但不一定每個人都有此技能;第二個就是提供更多資料。他認為提供更多資料是一個合理的做法,因為有些資料取得不易,反而是個人或企業的核心競爭力。
他也強調,很多人會過度關注模型,但其實市面上的模型能力已旗鼓相當,表現只是 95 分和 98 分的差別,因此在開發做任何 AI 應用之前,都必須了解自己的資料,因為這正是企業的競爭力所在。
你的視覺任務更複雜,還是更簡單?
針對更複雜的視覺應用,NVIDIA 推出串流分析工具包 DeepStream 軟體開發套件。曾吉弘分享,DeepStream 的核心功能在於處理基於 AI 的多感測器,以及理解視訊、音訊和圖像,並且能建立包含神經網路和其他複雜處理任務的串流處理管線,例如追蹤、視訊編碼與解碼、視訊渲染等操作。
曾吉弘表示,DeepStream 非常適合視覺 AI 開發人員、軟體合作夥伴、新創公司和建立 IVA 應用程式和服務的 OEM。
不過,如果只是簡單的視覺任務,是否需要從頭訓練 AI 模型?Jetson Inference 和 DeepStream 提供了許多 AI 開發套件,但在實際應用中,有時只需要針對特定的物體或場景進行簡單的辨識。曾吉弘指出,開發者如為此從頭訓練一個 AI 模型,可能遇到資料不夠、對於神經網路架構掌握度不夠等挑戰,因此,可以學習「遷移學習」、稍微改寫已經訓練好的模型,而該模型需要能夠支援此作法,例如 NVIDIA 的 TAO toolkit。
邊緣端的生成式 AI 應用!Jetson AI Lab
Workshop 最後一部分來到了 Jetson AI Lab,其中整理了可於 Jetson 邊緣運算平台上執行的各種生成式AI應用。曾吉弘表示,由於這類應用(例如大語言模型)對於記憶體的要求相當高,部分範例在 Orin Nano 會因為記憶體不足而無法執行,或是執行效能不佳──每一個範例都是走 7 至 10 GB 的 container,或需要另外下載逾 10 GB 的資料集。
曾吉弘 指出,由於 NVIDIA 執行長黃仁勳已多次提到「機器人的 ChatGPT 時代已經來臨」,Jetson AI Lab 上也針對機器人提出了許多生成式 AI 套件,包含 NVIDIA Cosmos™、Genesis、LeRobot、RoboPoint。曾吉弘特別提到 Genesis 是一個開源物理模擬平台,可以針對機械手臂的訓練生成不同模擬場景。他表示,機器人訓練通常是蒐集機械手臂所產生的真實世界資料,但因為機器人很貴,如果要親自搬到不同場景蒐集資料並不方便,因此運用NVIDIA Omniverse ™ 模擬平台來產生合成資料是不錯的選擇。
Workshop 也特別談到 NVIDIA 的人形機器人開源框架 GR00T N1,背後結合人類「快思」與「慢想」兩種思維模式,不但對於任務場景有更高階的理解,終端的執行動作的容錯性也更高。曾吉弘認為,這是一個非常聰明的架構,甚至可以讓人形機器人的訓練結果,適用於機械手臂或輪型機器人。
針對 AI 模型是否適合全面使用合成資料,曾吉弘表示 AI 模型不全面使用合成資料,因為如全面使用,需要超強的模擬器與大量的人為審核。合成資料的定位在於,可以弭補真實世界資料較難取得、網路資料多是圖文和圖像屬性,缺乏動作資料兩者之間的差距。
在 Workshop 中,曾吉弘深入剖析邊緣 AI 的發展趨勢與實務應用,從 Jetson 平台的選定策略、機器視覺函式庫、再到生成式 AI 工具鏈,逐步建立與會者對邊緣 AI 部署的全貌認識。他強調,真正決定 AI 專案成功的關鍵,並非模型本身,而是資料的掌握與應用情境的精準理解。
曾吉弘表示,無論是追求即時處理、節能運作還是隱私保護,邊緣 AI 都展現出不可忽視的潛力,也為未來智慧機器人開啟更多創新可能。他最後向現場參與者分享,NVIDIA DLI 深度學習機構網站上提供了更多相關教學課程,可以用於充實自己。
立即預約收看「AI 機器人產業論壇」演講精華,掌握 AI 機器人製造,共同打造台灣新護國群山
【推薦閱讀】
◆ 「實體 AI 最終會在虛擬世界誕生。」NVIDIA 解密 AI 機器人訓練戰略
◆ 「如果晶片要用機器人做,那誰做機器人?」數發部、NVIDIA、AWS 等專家齊聚 AI 機器人產業論壇,揭示 AI 機器人生態系成形
*本文部分初稿由 AI 生成,經 TechOrange 編撰,圖片來源:TechOrange。