본 논문은 EgoZero라는 시스템을 제안합니다. EgoZero는 Project Aria 스마트 안경으로 캡처한 인간의 시연 데이터만을 사용하여(로봇 데이터 없이), 강력한 조작 정책을 학습하는 최소한의 시스템입니다. 인간의 시연 데이터에서 로봇이 실행 가능한 행동을 추출하고, 형태에 무관한 상태 표현으로 인간의 시각적 관찰을 압축하며, 형태, 공간, 의미적으로 일반화되는 폐쇄 루프 정책 학습을 가능하게 합니다. Franka Panda 로봇을 사용한 실험 결과, 7가지 조작 작업에서 20분의 데이터 수집만으로 70%의 성공률을 달성하며 제로샷 전이를 보여줍니다. 이는 현실 세계 로봇 학습을 위한 확장 가능한 기반으로서 야생 인간 데이터의 활용 가능성을 시사합니다.