AI大戰|小米開源首代機械人大模型 擁47億參數劍指具身智能應用 消費級GPU實現實時推理與順暢動作
小米(1810)正式發布並開源首代機械人視覺-語言-動作(VLA)大模型「Xiaomi-Robotics-0」,標誌集團在具身智能與機械人領域的技術佈局進一步落地。 該模型擁有約47億參數,主打在消費級顯卡上實現即時推理,核心針對傳統VLA在推理延遲及真機動作不連貫等行業痛點,並在多個主流仿真測試及真機任務中刷新多項SOTA成績。小米收市跌1.56%,報36.52元。
小米技術團隊在官方渠道表示,Xiaomi-Robotics-0採用主流Mixture-of-Transformers(MoT)混合架構,通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合,構建起「感知-決策-執行」的高效閉環,兼顧通用語義與多模態理解能力,以及精細、連貫的動作控制。 其中,VLM負責理解如「請把毛巾疊好」等模糊自然語言指令,並從高清視覺輸入中解析場景與空間關係;動作執行模塊則嵌入多層Diffusion Transformer(DiT),不再只輸出單一步驟,而是生成連續「動作塊」(Action Chunk),並結合流匹配(Flow-matching)技術提升動作精準度和連貫性,從而在現實機械人運動中減少「卡頓」與斷層。
為避免模型在強化動作能力的同時犧牲基礎常識與語義理解,小米為Xiaomi-Robotics-0設計了「跨模態預訓練+後訓練」兩階段訓練框架,先在大規模多模態數據與跨載體機械人軌跡上預訓練,以保留強VLM能力,再在專門的機械人任務上精調,平衡推理速度、行為泛化與物理穩定性。團隊同時引入異步執行與推理優化策略,使模型在消費級GPU上亦能實現實時推理與順暢動作,提升落地使用的性價比與可及性。小米已開放Xiaomi-Robotics-0的技術主頁、開源代碼以及模型權重,開發者可通過GitHub與Hugging Face等平台免費獲取相關資源。