蘋果 AI 研究團隊提出一款新模型「Depth Pro」,能夠顯著提升機器感知深度的能力,從擴增實境(Augmented Reality,AR)到自駕車等不同領域可望帶來深遠的影響。
一篇《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》新論文,研究團隊提出零樣本單目場景深度預測的基礎模型,稱為 Depth Pro,可合成具有無比銳利和高頻細節的高解析度深度圖。
Depth Pro 的深度預測採取公制,具有絕對比例,不依賴 metadata。這款模型速度很快,在標準 GPU 只需 0.3 秒就能產生 225 萬像素的深度圖。
研究團隊指出,Depth Pro 真正與眾不同之處在於它能夠估計相對和絕對深度,意味著這款模型可以做到真實世界的測量,對 AR 等應用相當重要,使虛擬物件擺在實體空間的準確位置。
Depth Pro 不需要對特定領域的資料集進行大量訓練即可做出準確預測,這稱為零樣本學習。這使得該模型高度通用,可以應用在廣泛的影像,而不需要相機參數等 metadata。
研究團隊將 Depth Pro 開源釋出,程式碼以及預訓練的模型權重可在GitHub 取得,允許開發者和研究人員試驗並進一步完善這項技術。他們也鼓勵進一步探索 Depth Pro 在機器人、製造、醫療保健等領域的應用潛力。
單目深度預測一直是具有挑戰性的任務,需要多項影像或焦距等 metadata 來估算測量深度,但 Depth Pro 繞過這些要求,不到 1 秒就能從單一 2D 圖像產生詳細的 3D 深度圖,甚至可以捕捉傳統方法可能忽略的微小細節,在單目場景深度預測上達成重大躍進。
(首圖來源:shutterstock)
留言 0