AI大戰｜小米開源首代機械人大模型擁47億參數劍指具身智能應用消費級GPU實現實時推理與順暢動作

小米（1810）正式發布並開源首代機械人視覺-語言-動作（VLA）大模型「Xiaomi-Robotics-0」，標誌集團在具身智能與機械人領域的技術佈局進一步落地。該模型擁有約47億參數，主打在消費級顯卡上實現即時推理，核心針對傳統VLA在推理延遲及真機動作不連貫等行業痛點，並在多個主流仿真測試及真機任務中刷新多項SOTA成績。小米收市跌1.56%，報36.52元。

小米技術團隊在官方渠道表示，Xiaomi-Robotics-0採用主流Mixture-of-Transformers（MoT）混合架構，通過「視覺語言大腦（VLM）＋動作執行小腦（Action Expert）」的組合，構建起「感知－決策－執行」的高效閉環，兼顧通用語義與多模態理解能力，以及精細、連貫的動作控制。其中，VLM負責理解如「請把毛巾疊好」等模糊自然語言指令，並從高清視覺輸入中解析場景與空間關係；動作執行模塊則嵌入多層Diffusion Transformer（DiT），不再只輸出單一步驟，而是生成連續「動作塊」（Action Chunk），並結合流匹配（Flow-matching）技術提升動作精準度和連貫性，從而在現實機械人運動中減少「卡頓」與斷層。

為避免模型在強化動作能力的同時犧牲基礎常識與語義理解，小米為Xiaomi-Robotics-0設計了「跨模態預訓練＋後訓練」兩階段訓練框架，先在大規模多模態數據與跨載體機械人軌跡上預訓練，以保留強VLM能力，再在專門的機械人任務上精調，平衡推理速度、行為泛化與物理穩定性。團隊同時引入異步執行與推理優化策略，使模型在消費級GPU上亦能實現實時推理與順暢動作，提升落地使用的性價比與可及性。小米已開放Xiaomi-Robotics-0的技術主頁、開源代碼以及模型權重，開發者可通過GitHub與Hugging Face等平台免費獲取相關資源。

請更新您的瀏覽器

財經

BossMind

請更新您的瀏覽器啟用Javascript

AI大戰｜小米開源首代機械人大模型 擁47億參數劍指具身智能應用 消費級GPU實現實時推理與順暢動作

BossMind

請更新您的瀏覽器

AI大戰｜小米開源首代機械人大模型擁47億參數劍指具身智能應用消費級GPU實現實時推理與順暢動作