1 月 23 日消息,如何將視覺語?基礎模型(Vision Language Models, VLMs)應?于機器?以實現(xiàn)通?操作是具身智能領域的?個核?問題,這??標的實現(xiàn)受兩?關鍵挑戰(zhàn)制約:
VLM 缺少精確的 3D 理解能?:通過對?學習范式訓練、僅以 2D 圖像 / ?本作為輸?的 VLM 的天然局限;
?法輸出低層次動作:將 VLM 在機器?數(shù)據上進?微調以得到視覺 - 語? - 動作(VLA)模型是?種有前景的解決?案,但?前仍受到數(shù)據收集成本和泛化能?的限制。
上海智元新創(chuàng)技術有限公司官方今日發(fā)文稱,北?攜?智元機器?團隊提出 OmniManip 架構,基于以對象為中?的 3D 交互基元,將 VLM 的高層次推理能力轉化為機器?的低層次高精度動作。
針對?模型幻覺問題和真實環(huán)境操作的不確定性,OmniManip 引?了 VLM 規(guī)劃和機器?執(zhí)?的雙閉環(huán)系統(tǒng)設計,實現(xiàn)了操作性能突破。目前項?主?與論?已上線,代碼與測試平臺即將開源。
從智元機器人官方獲悉,OmniManip 的關鍵設計包括:
基于 VLM 的任務解析:利? VLM 強?的常識推理能?,將任務分解為多個結構化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。
以物體為中?的交互基元作為空間約束:通過 3D 基座模型?成任務相關物體的 3D 模型和規(guī)范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從?優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標系下的?標交互姿態(tài)。
閉環(huán) VLM 規(guī)劃:將?標交互姿態(tài)下的 Active / Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現(xiàn) VLM 對?身規(guī)劃結果的閉環(huán)調整。
閉環(huán)機器?執(zhí)?:通過物體 6D 姿態(tài)跟蹤器實時更新 Active / Passive 物體的位姿,轉換為機械臂末端執(zhí)?器的操作軌跡,實現(xiàn)閉環(huán)執(zhí)?。
此外,OmniManip 具備通?泛化能?,不受特定場景和物體限制。團隊已將其應?于數(shù)字資產?動標注 / 合成管道,實現(xiàn)?規(guī)模的機器?軌跡?動采集。該研究團隊將開源泛化操作?規(guī)模數(shù)據集和對應的仿真評測基準。
據IT之家此前報道,以“天才少年”身份加入華為的稚暉君于 2022 年底宣布離職,創(chuàng)業(yè)智元機器人。2024 年 9 月 3 日,智元機器人完成 A++++++ 輪融資,估值已超過 70 億元,得到了包括北汽、上汽、比亞迪在內的國內汽車巨頭支持。
目前,智元機器人量產的第 1000 臺通用具身機器人已于本月(1 月 6 日)正式下線,其中包括 731 臺雙足人形機器人(遠征 A2 / 靈犀 X1)和 269 臺輪式通用機器人(遠征 A2-D / A2-W)。