본 논문은 Robots Imitating Generated Videos (RIGVid) 시스템을 소개합니다. RIGVid는 물리적인 시범이나 로봇 특화 훈련 없이 AI가 생성한 비디오를 모방하여 로봇이 붓기, 닦기, 섞기와 같은 복잡한 조작 작업을 수행할 수 있도록 합니다. 언어 명령어와 초기 장면 이미지를 바탕으로 비디오 확산 모델이 잠재적인 시범 비디오를 생성하고, 시각-언어 모델(VLM)이 명령어를 따르지 않는 결과를 자동으로 걸러냅니다. 6D 자세 추적기는 비디오에서 객체 궤적을 추출하고, 이 궤적은 구현 방식에 관계없이 로봇에 재지정됩니다. 광범위한 실제 평가를 통해 필터링된 생성 비디오가 실제 시범만큼 효과적이며, 성능이 생성 품질에 따라 향상됨을 보여줍니다. 또한 생성 비디오에 의존하는 것이 VLM을 사용한 키포인트 예측과 같은 더욱 간결한 대안보다 성능이 우수하며, 강력한 6D 자세 추적이 밀집 특징점 추적과 같은 다른 궤적 추출 방법보다 우수함을 보여줍니다. 이러한 결과는 최첨단 상용 모델이 생성한 비디오가 로봇 조작에 대한 효과적인 감독 소스가 될 수 있음을 시사합니다.