它知道你在搬重物,但不知道你會受傷:想讓 AI 讀懂物理世界究竟多困難?
隨著人工智慧技術發展至今,許多人都認為 AI 理論上已經變得無所不能,畢竟 AI 特別擅長發現模式,所以能快速分類醫學影像、定位人體關節,並且找出其中的各種規律。
然而,當 AI 應用來到實驗室之外,例如將場景轉換到健身房、工廠或診所等真實環境時,情況就會變得完全不同。
在缺乏完整情境與動作連續資訊下,AI 對異常動作的判斷仍高度不可靠,例如病患因走路重心不穩造成的摔跤,或者工人搬運物品時,在姿勢上出現的過度傾斜。人工智慧依然難以理解人類的運動方式。
使用靜態圖片訓練,AI 不懂連續行為
畢竟,主流通用視覺模型的核心訓練資料,仍以靜態影像為主,導致對連續動作與力學變化的理解不足。可是人類的動作卻是「動態」且「連續」的行為,其中更包含了力量、節奏、意圖,甚至是可能的疲勞表現。
因此,如果人工智慧無法清楚理解上述要素,AI 就始終只能靠猜測,判斷人類的動作行為究竟是屬於正常運動,或者是出現了異常。
在這種情況下,隨著越來越多產業倚賴 AI 進行監控、指導,或者將實體任務自動化,技術的侷限已經變得日益顯著且難以忽視,這也同時解釋了為何眾多科技團隊,皆希望教導人工智慧去主動理解人類的運動模式。
人類意圖、光線、角度,全都干擾 AI
深度探討 AI 容易「誤讀」物理世界的原因,首先就在於連續性。
正如同前文所述,大多數 AI 模型的訓練資料都是「靜態圖片」,雖然單一畫面可以捕捉人類姿勢,但卻無法判斷一個人是否確實站得穩,或者下一秒的動作即將發生變形。
其次,AI 無法判斷人類動作背後的多重意涵。舉例來說,當人類做出膝蓋內夾的動作時,即可能代表疲勞、活動受限,或根本只是想換個姿勢;至於肩膀聳起則可能反映某個人的習慣,或者那個人正感覺疼痛,對於機器來說,這些訊號全都非常難以解讀。
此外,環境的光線變化、攝影機的拍攝角度不同,或者有人從鏡頭前方經過等狀況,都會讓 AI 的影像識別機制感到困惑。
過去曾有研究表明,即使是在標準測試中表現優異的 AI 模型,一旦轉換到現實環境使用,遇到畫面遭到遮蔽,或者鏡頭拍攝角度出現變化等情境,其判斷準確度也會大幅下降。
視覺辨識不夠強,無法滿足精準需求
簡單來說,以 AI 為基礎的視覺辨識系統,雖然擅長「辨識物體」,例如分辨鞋子跟椅子之間的差別,但當我們要求 AI 評估「人類身體究竟如何移動」時,各種缺點就會變得一覽無遺。
正如同健康科技企業 FlexAI 共同創辦人 Amol Gharat 的觀點,他指出想要教導 AI 看懂人類姿勢,跟訓練 AI 辨識物體其實完全不同,開發者必須要強調身體部位變化,於時間推移中的連續性關係。
綜觀當今大多數 AI 系統,原本都是為了通用的視覺辨識任務所打造,從未針對理解人類身體於現實世界的行為模式進行設計,這對於仰賴精準動作的產業而言,該缺陷可能造成毀滅性後果。
舉例來說,假若 AI 模型誤判工人搬運物品的方式、病患行走的方式,或者運動員跳躍後落地的方式,便會忽略那些導致人類受傷、體育表現下滑,甚至是在某些情況下,造成致命事故的關鍵模式。
真實世界數據不足,應用出現落差
專家認為,拖累 AI 理解人類物理世界的一大障礙,即在於真實數據不足所造成的訓練缺口。
傳統上,用於訓練 AI 的動作捕捉數據,雖然整體品質很高,但都是在變因獲得控制的實驗室中進行採集;那些地方擁有固定的燈光、實驗者也穿著特製的服裝,跟 AI 未來實際所應用到的倉庫、診所或健身房等真實場景相去甚遠。
此外,不同人類之間的個體差異極大,近來有許多生物力學研究都強調,每個人的動作會因疲勞程度和受傷病史的不同,進而造成表現上的差異。
然而,大多數商業級、方便取得的訓練影像或資料,仍然缺乏類似的力學標籤,導致 AI 無法分辨某個動作究竟是無害,或者即將導致人類受傷。
延遲、隱私要兼顧,轉回地端運算
在訓練數據嚴重不足的情況下,有部分研究團隊,例如 FlexAI 只能選擇從頭開始,聘請專家逐格標記數千支影片,替人體的髖部位置、脊椎排列等細節打上力學標籤,然後再放入自家的 AI 模型進行訓練。
只不過,即使開發團隊能夠擁有真實且正確的數據,速度與隱私又成為了相關 AI 技術開發的另一個阻礙。
簡單來說,當 AI 系統進行判讀影像之後,其給出的回饋必須足夠即時,才能協助使用者於運動過程中立刻調整,但是,若將影像傳輸至雲端處理,必然會導致延遲增加,同時引發資料隱私、個資儲存的相關疑慮。
對此,採用相關 AI 技術的健康科技企業,比方說 FlexAI 就開始選擇將 AI 運算任務,從遠端伺服器遷回使用者的個人裝置。
期待 AI 給出理由,需要其他數據輔助
展望未來,如果 AI 能夠真正理解人類的運動方式,其影響肯定將變得無遠弗屆,不只是提高健身或健康 App 的品質,還可以協助物理治療師遠端追蹤患者的復健進度,甚至是在工廠中提前偵測出,可能導致員工受傷的危險姿勢。
以 FlexAI 目前擁有的技術而言,他們所開發的 AI 模型,已經可以協助健身者於運動過程中,比方說舉重時透過 AI 偵測姿勢跑掉的情況,然而,當前的 AI 模型仍然無法解釋,究竟健身者發生姿勢錯誤的實際理由是什麼。
換句話說,雖然 AI 可以偵測到健身姿勢錯誤,但卻無法得知使用者究竟是由於疲累、舊傷復發,或者單純因為技巧不夠熟練。若想解決這個問題,FlexAI 強調 AI 仍必須結合視覺數據、穿戴裝置訊號及使用者的主觀回饋。
當然,蒐集這些數據必然會涉及使用者對企業透明度、信任度的質疑,無論是勞工、病患或運動員,勢必都會想理解自身運動數據的使用方式,以及個人資料如何影響 AI 做出決策,這對於健康科技公司來說又是一大挑戰。
快速運算+情境判斷,成未來 AI 關鍵
目前市場上大多數投入運動智慧研究的團隊,基本上都不認為自己正在發展的技術,未來將會取代掉人類專家。FlexAI 執行長 Amin Niri 就指出,公司研究 AI 模型並非是想要替代健身教練,而是要讓專業知識更容易取得。
FlexAI 所抱持的營運思維,或許正是讓新一波 AI 技術保持務實的關鍵,當企業持續將控制權放在人類而非機器身上,使用者自然就能更清晰、更快速的理解自身動作模式,在健康、安全與運動表現的深層意義。
總歸來說,判讀人類動作是 AI 最艱鉅的考驗,但是其解決之道,並不僅僅在於更龐大的模型,還需仰賴更優質的數據、更完善的情境脈絡,以及研究者對人體複雜性的深刻體悟。
FlexAI 共同創辦人 Amol Gharat 強調,AI 必須學會跟人類同步進化,而未來將會屬於那些既能夠快速運算,又能夠深度理解情境的 AI 系統。
【推薦閱讀】
◆ 舊金山停電成自駕車「壓力測試」:Waymo 大規模停擺、Tesla 正常運行,技術路線差異被實戰放大
◆ AI 每 8 個月效能翻倍、部分任務達 PhD 水準:英國報告揭前沿模型的能力、風險與防護三大輪廓
◆ 好萊塢 AI 導入三路徑:從極端實驗到制度化合作,如何「多軌道」探索 AI?
*本文開放合作夥伴轉載,參考資料:《Forbes》、《arXiv》,首圖來源:Nano Banana Pro
(責任編輯:鄒家彥)