ICLR 2025 | 机器东说念主安灯泡、切东西齐能拿握,可操控轨迹追踪的DexTrack来了
实践天下的机器东说念主距离科幻演义里的机器东说念主天下还有多远?通用贤慧操控何时智商已毕?朝着这一伟大的方案,接头通用贤慧操控轨迹追踪的 DexTrack 便期骗而生。
翻开新闻客户端 栽植3倍流通度论文地址:https://arxiv.org/abs/2502.09614
代码地址:https://github.com/Meowuu7/DexTrack
花式网站:https://meowuu7.github.io/DexTrack/
YouTube 视频:https://youtu.be/zru1Z-DaiWE
1. 动机
赋予机器东说念主像东说念主相似的贤慧操控手段是通往还日终极具身智能的要害一步。怎样让一个具身智能体赢得平凡的贤慧操控手段一直是具身智能边界的一个要害问题。贤慧操控任务复杂且种种,之前好多使命大多专注在特定手段的获取(如抓取粗略在手里动掸)。他们大多需要对单独的任务进行针对性的想象,举例有益对某一种特定的任务想象对应的奖励函数,之后字据这么的奖励函数熟悉战术网络来处分对应的问题。这些难以移动到不相似的任务上的 reward 想象是通往通用操控手段的一个阻力。
是合计了已毕通用的贤慧操控手段,咱们率先需要任务示意层面的和洽。此外,贤慧操控手段触及到复杂的和随时辰变化的手 - 物战役,复杂的物体通顺轨迹。再商酌到对使用一个操控战术处分不同类型的操控任务的需求,得到一个通用的贤慧操控智能体对算法自己的想象也提议了很大的挑战。
为了已毕这一方案,咱们将通顺蓄意以及铁心的问题拆解开来,将不同种的贤慧操控手段再行和洽到一个轨迹追踪铁心的框架下,进一步借助于普遍的东说念主类操控物体的数据手脚追踪的方案,通过学习一个通用的轨迹追踪铁心器,来一定进程上处分这个问题(图 1)。
图 1:问题的拆解和对通用轨迹追踪器的期待
2. DexTrack:通用轨迹追踪器的学习
2.1 和洽的轨迹追踪任务示意
咱们将不同类型的操控任务和洽到一个轨迹追踪任务来完成任务示意层面的和洽。在每个时间,给定机器手和物体现时的情状,以及下一步念念要达到的情状,轨迹追踪铁心器的任务是给出机器手现时应该履行的动作,从而通过履行该动作,机器手不错通顺且和物体进行交互,使得机器手以及物体实质达到的情状与下一步念念要达到的情状相吻合。这么的示意款式对不同的操控任务是相比适配的。对一个任务,比如将物体动掸一个角度,股市配资咱们不错先蓄意出来物体的通顺轨迹,之后将这个任务更动为追踪物体通顺轨迹的轨迹追踪任务。
图 2:轨迹追踪器的输入和输出
2.2 通用轨迹追踪器的学习模范
一个通用的轨迹追踪需要不错反映各式各样的轨迹追踪号召。这一种种的轨迹空间对该轨迹追踪器的学习提议了更高的挑战。咱们提议了一个将 RL 和 IL 纠合起来的模范,在 RL 熟悉的同期引入监督信号来缩短 policy 学习的难度。通过瓜代地使用高质地的轨迹追踪数据补助通用轨迹追踪铁心器的学习,以及借助通用轨迹追踪器来提高单一轨迹追踪演示的质地,咱们不错逐步得到一个广宽的不错追踪各式各样轨迹的铁心器(图 3)。
图 3:通用轨迹追踪器的熟悉模范
2.2.1 轨迹追踪任务奖励函数
奖励函数主要由三部分构成:1)物体轨迹追踪奖励,2)手部轨迹追踪奖励,3)手和物体的亲密度奖励。
2.2.2 通过 RL 和高质地追踪演示数据来熟悉通用轨迹追踪器
通过在 policy 的熟悉历程中引入特殊的监督信息来缩短这一通用轨迹追踪器学习的难度。
2.2.3 借助通用轨迹追踪器来提高单一轨迹追踪演示的质地
咱们想象了两个战术来提高单一轨迹追踪演示的质地,1)借助通用轨迹追踪器来启动化单一轨迹追踪战术的学习,2) 借助 homotopy optimization 的款式,通过处分一系列的优化任务来缩短特定轨迹追踪任务优化的难度(图 4)。
图 4:Homotopy Optimization
3. 收尾
咱们的模范在极具挑战性的任务上达到了令东说念主注重的遵守。同期咱们也进行了普遍的真机实验来考据它在真正天下中的可行性。咱们的机器手不错动掸并尝试 “安设” 一个灯泡。在 functional tool using 方面,咱们也不错在手中鼎新一个刀使得刀不错刀刃向下来切东西,不错在手中动掸一个锤子,并使用正确的朝向来锤东西。因为赢得这些动作的东说念主手轨迹相比艰苦,咱们通过只追踪物体轨迹来已毕这些遵守。这也讲授了咱们的模范不错拓展到稀少物体轨迹追踪的期骗上。
翻开新闻客户端 栽植3倍流通度图 5:Real World 收尾展示(Part 1)
以下是更多的真机实验展示。
翻开新闻客户端 栽植3倍流通度图 6:Real World 收尾展示(Part 2)
在 simulator 中,咱们对这些包含复杂的物体的通顺轨迹,小巧的微转,以及特殊细的难以抓起来的物体仍然是有用的。
翻开新闻客户端 栽植3倍流通度图 7:Isaac Gym 中的不同模范的相比
此外,homotopy optimization 不错有用地提高轨迹追踪的遵守。
翻开新闻客户端 栽植3倍流通度图 8:Homotopy Optimization 的有用性
咱们的接头对通顺轨迹中的噪声相比鲁棒,也不错泛化到从来莫得见过的物体的种类以及通顺的类别上。
翻开新闻客户端 栽植3倍流通度图 9:Robustness
更多的收尾:
翻开新闻客户端 栽植3倍流通度图 10:更多的收尾
开源代码:https://github.com/Meowuu7/DexTrack
更多的动画演示和联系信息可见花式网站:https://meowuu7.github.io/DexTrack/
© THE END