蘋果進軍機器人領域的傳言已久,被視為為了提高銷量、結合 Apple Intelligence 做出的努力之一。《彭博》日前更曾揭露,蘋果最快會在 2026 推出桌上機器人。近日蘋果發表研究論文,推出開發框架 ELEGNT、展示以皮克斯電影為靈感的燈狀機器人範例之外,還推出人形機器人框架 EMOTION,讓機器人做出類似人類的動作,或許能看見端倪。
這 2 篇論文中,蘋果皆提到臉部表情、手勢、肢體動作等非語言線索,在人機互動之中扮演重要角色,然而現有方法無法模仿人類這些微妙和多樣的溝通線索,因此決定弭補此一差距,探討哪些因素影響人類對機器人的認知與互動。
向皮克斯致敬的檯燈機器人,能用 Siri 聲音說話
蘋果認為,富有表現力的動作,是優化人機互動的關鍵。其選用了一盞燈做為「非擬人化」機器人的範例,靈感來自皮克斯電影裡名為 Luxo Jr 的檯燈──畢竟燈不具備任何類似人的特徵,但可被設計以人類熟悉的方式運作。
這款機器人具有 6 自由度的機械手臂,除了有廣泛的運動範圍,還能在執行功能性任務之外表達肢體語言。此外,3D 列印的燈頭內有 LED 燈,除了提供照明,還可作為「眼睛」傳達機器人的注意力和意圖。上頭也搭載雷射投影機、內部攝影機,分別能將輔助資訊投影到牆面,以及觀察環境和使用者活動。
根據《TechCrunch》,在蘋果示範影片中,最有趣的是可以讓使用者向機器人問問題。也就是說,這款機器人可以當作 HomePod、Amazon Echo 或其他智慧音箱的動態版本運作,具有商業化潛力。面對使用者的提問,機器人會用 Siri 的聲音回答。
此外,這款機器人被問及天氣時,有兩種版本反應:一種是簡單給出答案,另一是轉頭看向窗外──似乎是窗外的景色能給其靈感回應。報導指出,這種具有表現力的動作,有助於形成人與機器之間的連結。
結合 LLM、VLM,讓人形機器人豎起大拇指
針對人形機器人,蘋果運用大型語言模型(LLM)的情境理解能力,來動態生成適合社交、客製化的人機互動手勢動作序列,並結合視覺語言模型(VLM)協助識別情境,讓機器人反應更符合當下情境、增加互動的自然性。
這種方法不需要大量的人工設計或預錄動作,能更有效率地產生多樣化的肢體表達。例如,當機器人看到有人在白板上解數學題時,LLM 可以生成「豎起大拇指」的動作來表達鼓勵。
蘋果總共用該框架產生 10 種不同手勢,並進行線上使用者研究。除了豎起大拇指,還包含 OK、V 字、空氣引號、過來、拳頭向上、爵士手、張開手、停止、聆聽等示意,讓使用者觀看後根據自然度、可理解度進行評分。
蘋果也進一步使用自然語言格式的人類回饋,迭代改進動作序列,開發出 EMOTION++ 版本。研究顯示,整合人類回饋後,機器人產生的動作在自然度和易理解度方面都明顯優於未經回饋調整的動作。
機器人的什麼動作會影響人類感知?
研究指出,機器人的手部位置、移動模式、手臂和肩膀的運動、手指姿勢以及速度等變數都會影響人類對肢體表達的感知。例如,手部位置的正確性、手勢的流暢性、手指的彎曲程度,以及動作的速度感等,都對人類的理解和接受程度有影響。
蘋果指出,其作法在特定情況下能產生可理解、自然的機器人動作,與人類的表現相同,甚至超越;建議未來 LLM 在生成動作時,應考量這些變數,並根據人類回饋進行調整,提升機器人的肢體表達能力,實現更自然和更易於理解的人機互動。
在進行這些研究之際,《彭博》、《TechCrunch》報導,蘋果正加速佈局家用機器人,並擴大人力招募,為發表更先進的智慧家庭系統做準備。
【推薦閱讀】
◆ 波士頓動力加上 Meta AI,更聰明的家用機器人要來了?
*本文開放合作夥伴轉載,資料來源:《Bloomberg》、Apple 1、Apple 2、《TechCrunch》,首圖來源:Apple。