英伟达的 GR00T 项目通过一系列技术,正在解决机器人数据扩展的难题。传统的机器人数据采集不仅费用高昂,而且效率低下。GR00T 项目利用 Vision Pro 设备,以第一视角控制人形机器人,解析并重定向人类手部动作,从而实现数据采集。
为了应对初始数据量有限的问题,研究人员采用了一种两步走的数据扩展方法:
- **RoboCasa 生成仿真框架 **:这个框架可以生成不同的视觉外观和环境布局,把单一的厨房数据扩展成成百上千个纹理和物体布置各异的厨房场景。
- **MimicGen 技术 **:基于原始数据生成大量新的动作轨迹,同时过滤掉失败的动作,比如掉落杯子的情况。
通过这种方法,人类数据得以转化为大量的训练样本,提高了数据采集效率。
研究人员使用 Vision Pro 以第一视角控制人形机器人,将人类手部动作解析并重定向到机器人手部。这种方式提高了数据采集的精度,降低了成本。借助 Vision Pro,研究人员能够收集少量但高质量的数据。这些数据涵盖人类操作机器人时的手部动作和环境交互信息,为后续的数据扩展打下了基础。
RoboCasa 通过生成不同视觉外观环境下的布局,将单一的厨房数据扩展成成百上千个不同纹理、家具和物体布置的厨房场景。这种方法丰富了数据集的多样性,提升了模型的泛化能力。
MimicGen 技术基于原始数据生成大量新的动作轨迹,并过滤掉失败的动作(如掉落杯子)。这种技术通过模拟各种操作场景,进一步扩展了数据集的规模和质量,使得机器人能够在更多样化的环境中执行任务。
通过这些技术手段,GR00T 项目解决了数据采集的高成本和低效率问题,为人形机器人的发展提供了数据支持。