超强人机20关最新通关教程(让机器人更像人类有了新方法,港科大新算法对齐人机动作形态,无需重复训练,轻量模块通用且适配)


超强人机20关最新通关教程(让机器人更像人类有了新方法,港科大新算法对齐人机动作形态,无需重复训练,轻量模块通用且适配)

随着科技的进步,“让机器人看懂世界、听懂指令、动手干活”已经从科幻走向现实。为了实现这一愿景,基于大规模人类视频数据进行视觉预训练是一种有效途径。

人类操作与机器人动作序列之间存在高度相似性,这使得从人类视频中学习到的动态表征可以迁移到机器人任务中。从人类到机器人的迁移过程中,面临着关键阻碍——人-机器人数据域之间的差异(Human-Robot Domain Discrepancy)。尽管执行相同任务时,人类和机器人的动作看似相似,但它们的形态和执行环境存在根本差异。

这种差异导致了一个重要问题:即使在海量的人类数据上进行预训练,模型直接应用于机器人任务时,其表现往往不尽如人意。针对这一问题,香港科技大学(广州)的团队提出了核心疑问:如何减少人-机器人之间的数据域差异影响,使得从人类预训练中获得的视觉模型更有效地帮助机器人完成实际任务?

为了解决这个问题,他们提出了一种新的预训练迁移范式。这种范式利用匹配的人类-机器人操作视频,设计了一种语义对齐方法,成功弥合了跨域差异。其中,第一作者周佳明是香港科技大学广州二年级的博士生,主要研究方向是人类视频动作模仿以及可泛化的机器人操作。

传统的方法直接使用在人类数据集上训练的模型来处理机器人任务,这种方法自然会受到人-机器人数据域差异的干扰。而本研究提出的新范式则通过语义对齐的人类-机器人视频对,在现有的人类视频预训练模型中插入Adapter微调模块,通过对比损失将机器人数据调整的模型的语义和预训练模型中良好建模的人类动态语义进行对齐,从而减少域差异的干扰。

这一新范式设计的核心思想是建立人-机器人之间的语义对齐机制。如果能获取同一任务的人类操作视频和机器人操作视频,并利用它们之间的对应关系引导模型微调,就能实现语义对齐。为了实现这一目标,该研究提出了一种HR-Align(Human-Robot Semantic Alignment)方法。该方法主张在预训练和下游任务之间引入一个“适配阶段”,在这个阶段中使用具有语义配对的人机数据集进行微调。

HR-Align方法的优势在于其参数高效、通用性强、数据易得。与其他需要重新训练或针对每种机器人环境单独调整的方案不同,HR-Align只需微调小模块,无需大规模更新主模型。该方法具备通用性,同一个适配模型可应用于多个任务和环境,无需逐一定制。

实验结果显示,通过HR-Align方法适配的模型在仿真和真实机器人任务上的表现都有显著提升。这一显著的提升验证了方法的有效性,也表明该适配策略具有极高的实际应用价值。

该研究的成果不仅提出了新问题、新范式和高效适配方法,还通过充分的实验验证取得了显著成果。论文链接、项目主页和开源仓库已在本文中提供。

本文来自微信公众号“量子位”,作者为HR-Align团队,经36氪授权发布。


超强人机20关最新通关教程(让机器人更像人类有了新方法,港科大新算法对齐人机动作形态,无需重复训练,轻量模块通用且适配)