英伟达 GR00T 项目：用 Vision Pro 解决机器人数据扩展难题

英伟达的 GR00T 项目通过一系列技术，正在解决机器人数据扩展的难题。传统的机器人数据采集不仅费用高昂，而且效率低下。GR00T 项目利用 Vision Pro 设备，以第一视角控制人形机器人，解析并重定向人类手部动作，从而实现数据采集。

为了应对初始数据量有限的问题，研究人员采用了一种两步走的数据扩展方法：

通过这种方法，人类数据得以转化为大量的训练样本，提高了数据采集效率。

研究人员使用 Vision Pro 以第一视角控制人形机器人，将人类手部动作解析并重定向到机器人手部。这种方式提高了数据采集的精度，降低了成本。借助 Vision Pro，研究人员能够收集少量但高质量的数据。这些数据涵盖人类操作机器人时的手部动作和环境交互信息，为后续的数据扩展打下了基础。

RoboCasa 通过生成不同视觉外观环境下的布局，将单一的厨房数据扩展成成百上千个不同纹理、家具和物体布置的厨房场景。这种方法丰富了数据集的多样性，提升了模型的泛化能力。

MimicGen 技术基于原始数据生成大量新的动作轨迹，并过滤掉失败的动作（如掉落杯子）。这种技术通过模拟各种操作场景，进一步扩展了数据集的规模和质量，使得机器人能够在更多样化的环境中执行任务。

通过这些技术手段，GR00T 项目解决了数据采集的高成本和低效率问题，为人形机器人的发展提供了数据支持。