HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos

작성자

Haebom

카테고리

Empty

저자

Zhi Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos

💡 개요

본 연구는 로봇 하드웨어 없이 인간의 시점(egocentric) 비디오에서 풍부한 조작 시연 데이터를 활용하여 제로샷 로봇 학습을 가능하게 하는 HumanEgo 프레임워크를 제안합니다. HumanEgo는 시각 및 운동학적 차이(embodiment gap)를 극복하기 위해 인간 시연을 손-객체 상호작용의 개체 수준 표현으로 변환하고, 흐름 일치(flow matching) 정책을 사용하여 각 궤적에서 발생하는 모든 감독 정보를 증폭시킵니다. 제안된 프레임워크는 로봇 데이터나 특정 하드웨어에 의존하지 않으며, 30분 이내의 인간 비디오 데이터만으로도 높은 성공률을 달성하고 새로운 로봇, 카메라, 환경에 대해 제로샷으로 강건하게 전이됩니다.

🔑 시사점 및 한계

•

인간 시점 비디오를 활용하여 로봇 학습에 필요한 데이터를 획기적으로 절감하고, 별도의 로봇 텔레오퍼레이션보다 우수한 성능을 보여 실질적인 로봇 학습 방식의 대안을 제시합니다.

•

로봇 하드웨어 및 환경에 대한 사전 지식 없이도 학습된 기술을 다양한 로봇에 제로샷으로 전이할 수 있어 범용성과 데이터 효율성을 극대화합니다.

•

비디오 데이터 내의 미묘한 상호작용 정보나 복잡한 객체 조작을 포착하는 데 있어 데이터의 품질과 다양성이 학습 성능에 미치는 영향을 추가적으로 분석하고, 더 복잡한 작업으로의 확장을 위한 연구가 필요합니다.

PDF 보기

Made with Slashpage