MIT 做出「語音轉現實」製造新介面：說一句話，機器人做出你想要的物件

生成式 AI 正在快速突破數位和實體的邊界，麻省理工學院（MIT）研究團隊近日發表一套「語音轉現實」（Speech-to-Reality）的系統，這是一種 AI 驅動的工作流程，嘗試建立一個全新的製造介面：使用者只要開口說出需求，機器人就能在幾分鐘內直接把物體「做出來」。

這套系統的核心是自然語言處理、3D 生成式 AI 與機器人組裝技術，研究人員已成功讓機械手臂完成椅子、凳子、書架、小桌子，甚至裝飾用的狗雕像等物件。根據參與研究的麻省理工學院研究生與晨邊設計學院研究員 Alexander Htet Kyaw 表示，這是首次有人將這些技術結合起來。

在實驗室中，一支固定於桌面的機械手臂會接收人類的語音指令，例如「我想要一張簡單的凳子」。系統首先透過語音辨識，將指令交由大型語言模型（LLM）解析，再由 3D 生成式 AI 建立該物件的數位網格模型。

接著，系統會將這個 3D 模型進行體素化（voxelization），拆解為可實際組裝的模組化元件，並進一步考量現實世界中的製造限制，例如零件數量、結構穩定性、懸空限制與幾何連接方式。最後，系統會自動產生可行的組裝順序與機械手臂的路徑規劃，完成實體物件的組裝。

與傳統製造流程相比，這套系統最大的突破，在於它降低了專業技能的門檻。過去，設計與製造往往需要 3D 建模（CAD）、工程繪圖或機器人程式設計背景，而這套系統則讓沒有相關經驗的人，也能直接透過自然語言參與設計與製造。

此外，這種方式也大幅縮短物件的製作時間。相較於 3D 列印往往需要數小時甚至數天，該系統採用即時組裝的方式，能在幾分鐘內就完成物件。

Kyaw 形容，這項計畫的核心目標，是打造一個人類、AI 與機器人之間的共同介面，讓三者能一起「創造我們周圍的世界」。

這套系統採用模組化元件進行組裝，也隱含對永續製造的想像。研究團隊指出，透過可拆解、可重組的模組設計，物件在不再需要時，可以被拆解並重新組合成其他用途，例如將沙發重新組裝成床，減少材料浪費。

團隊目前也計劃進一步強化家具的承重能力，從原本以磁力連接的方式，改為更穩固的結構設計。此外，研究人員已開發可將體素結構轉換為多台小型移動機器人可執行的組裝流程，未來有望將這套系統擴展至更大尺度的建築或結構。

研究團隊也透露，未來將把語音控制與手勢辨識、擴增實境（AR）操作整合進系統，進一步提升人機互動的直覺性。

＊本文開放合作夥伴轉載，資料來源：《MIT News》、《The Robot Report》、《hackster.io》，首圖來源： Alexander Htet Kyaw

理財