본 논문은 Robots Imitating Generated Videos (RIGVid) 시스템을 소개합니다. RIGVid는 물리적인 시범이나 로봇 특화 훈련 없이, AI가 생성한 비디오를 모방하여 로봇이 붓기, 닦기, 섞기와 같은 복잡한 조작 작업을 수행할 수 있도록 합니다. 언어 명령과 초기 장면 이미지가 주어지면, 비디오 확산 모델이 잠재적인 시범 비디오를 생성하고, 비전-언어 모델(VLM)이 명령을 따르지 않는 결과를 자동으로 필터링합니다. 그 후 6D 자세 추적기가 비디오에서 객체 궤적을 추출하고, 이 궤적은 구현 방식에 관계없이 로봇에 재지정됩니다. 광범위한 실제 평가를 통해 필터링된 생성 비디오가 실제 시범만큼 효과적이며, 생성 품질이 향상됨에 따라 성능도 향상됨을 보여줍니다. 또한 생성 비디오에 의존하는 것이 VLM을 사용한 키포인트 예측과 같은 더 간결한 대안보다 성능이 뛰어나며, 강력한 6D 자세 추적이 밀집 특징점 추적과 같은 다른 궤적 추출 방법보다 성능이 우수함을 보여줍니다. 이러한 결과는 최첨단 상용 모델이 생성한 비디오가 로봇 조작에 대한 효과적인 감독 소스가 될 수 있음을 시사합니다.