人形機器人商業化加速中,為何家務落地仍卡關?史丹佛揭 88% 失敗率的背後瓶頸
目前,人工智慧在認知與軟體任務上已取得驚人成就,例如能夠在國際數學奧林匹亞競賽(IMO)中奪得金牌、表現超越人類化學家,以及撰寫出色的程式碼。然而,根據史丹佛大學最新發布的《AI Index 2026》報告,研究人員點出 AI 發展的「參差不齊」(jagged frontier)現象:AI 可以解決最高深的數學題,卻可能無法可靠地幫人類撿起地上的髒襪子。
儘管人形機器人已開始進入市場,但報告指出,機器人在真實家庭任務中,能夠完全且安全達成任務的成功率僅有約 12%,這代表高達 88% 的家務任務依然會失敗。這項數據清楚地顯示,人形機器人從「進入家庭」到「真正可用」之間,仍然存在明顯落差。
模擬表現進步很快,但在真實家庭場景仍失靈
《AI Index 2026》指出,人形機器人在受控的軟體模擬環境中,操作成功率已經可達 89.4%,與 2022 年約 48% 的表現相比有非常顯著的提升。然而,當機器人離開實驗室,進入混亂且不可預測的真實家庭環境時,其成功率便會大幅下滑。
報告進一步分析,對 AI 來說最困難的基準測試(benchmark),正是那些必須在真實世界中採取行動的任務,這是因為現實環境充滿不可預測性,且一旦發生錯誤,就會帶來實際影響。即使是目前表現最頂尖的模型,在必須同時滿足「完成任務」與「安全性」時,仍然經常面臨失敗,甚至有超過三分之一的任務無法被安全地完成。這背後的核心問題在於,目前頂尖的 AI 模型多半是透過網路上的文字進行訓練,這對理解文字很有用,但要在真實世界中規劃並執行實體動作時,仍面臨巨大挑戰與不夠成熟的狀況。
《Forbes》也透過具體的家庭場景,生動地說明這種現實與模擬間的巨大落差:在真實的家庭環境中,地板可能會變得濕滑、杯子擺放的角度可能剛好偏離機器人的手、試圖打開抽屜時可能會卡住,或是孩子不小心把樂高玩具留在地板上,這些日常生活中微小的不確定性,都是造成機器人在家庭環境中容易失手的原因。
家用人形機器人已開始出現,但實用性與成熟度皆需補強
目前市場上已經可以買到不同價位的人形機器人產品,例如價格約 5,000 美元的入門款、要價 20,000 美元的 1X Neo,或是超過 40,000 美元的 AiMoga 新款 M1。然而,現階段消費者還不能期待這些機器人像完美的「機械管家」(mechanical Jeeves)一樣,穩定地代勞繁雜家務。
《Forbes》提到,要評估機器人是否能勝任家庭工作,最嚴苛的考驗之一是「Behavior-1K」測試。這項測試包含 1,000 項基於真實人類回報的家庭需求任務,在近期的挑戰中,表現最佳的團隊在這些任務上,僅達到 25% 的「可接受品質」成功率,而完整達成任務的成功率則還要更低。這也代表,我們仍需要投入更多研究,才能了解如何驅動機器人安全且成功地執行動作。
好消息是,部分領先的企業已經邁出下一步。例如 Figure AI 這類機器人公司,已經開始在真實的家庭環境中訓練這些機器人,並展示機器人完成清空洗碗機、整理雜貨等現實任務的能力。雖然《Forbes》認為這些機器人的動作還不夠快,但它們已經展現出一定程度的判斷力,例如能夠分辨哪些物品該放進冰箱,哪些該收進櫥櫃。
此外,Physical Intelligence 也展示能跨越不同機器人平台摺衣服的視覺-語言-動作模型(VLA),NVIDIA 與 Gemini Robotics 也正朝向訓練單一模型控制不同機器人的方向發展。然而,目前這類實體 AI 仍面臨資料缺乏的最大限制,因為機器人的訓練資料需要透過真實操作或高保真模擬取得,過程既緩慢又昂貴。
如今,人形機器人已開始進入家庭場景,市場上也出現不同價格帶的產品化選項。然而,根據《AI Index 2026》的評估,我們距離讓人形機器人成為真正安全、可靠且價格可負擔的家庭幫手,仍有一段明顯的改善空間。在 AI 真正克服真實世界的物理複雜性之前,要實現機器人全面處理家務的願景,仍需耐心等待。
*本文開放合作夥伴轉載,資料來源:《Forbes》、《The 2026 AI Index Report》,首圖來源:1X