본 논문은 다양하고 비정형적인 형태(인간형 로봇, 사족보행 로봇, 동물 등)에서 물리적으로 타당한 운동 기술을 습득하는 방법을 제시합니다. 강화 학습과 같은 기존 방법들은 과제 및 신체 특정적이며, 보상 함수 설계에 많은 노력이 필요하고, 일반화가 잘 되지 않는다는 한계점을 가지고 있습니다. 모방 학습은 대안이 될 수 있지만, 비인간 형태에 대해서는 고품질 전문가 데모를 얻기 어렵다는 문제가 있습니다. 본 논문에서는 비디오 확산 모델을 활용하여 인간부터 개미까지 다양한 형태의 사실적인 비디오를 생성하는 능력을 활용, 2D 생성 비디오로부터 3D 운동 기술을 학습하는 데이터 독립적인 방법을 제안합니다. 비전 트랜스포머를 활용하여 비디오 임베딩 간의 쌍방향 거리를 계산하고, 분할된 비디오 프레임 간의 유사성을 보상으로 사용하여 모방 학습 과정을 안내합니다. 고유한 신체 구성을 포함하는 이동 작업에서 방법을 검증하고, 인간형 로봇 이동 작업에서 3D 모션 캡처 데이터로 학습된 기준 모델보다 성능이 우수함을 보여줍니다. 데이터 수집 대신 데이터 생성을 사용하여 모방 학습을 위한 물리적으로 타당한 기술 학습에 생성적 비디오 모델을 활용할 수 있는 가능성을 강조합니다. 이 방법을 "데이터 없는 모방 학습 (NIL)"이라고 명명합니다.