본 논문은 로봇의 시각-운동 제어 정책 학습에 있어 데이터 수집의 어려움을 해결하기 위한 연구입니다. 기존의 모방 학습 방식은 많은 양의 훈련 데이터를 필요로 하지만, 본 연구는 다양한 형태(로봇, 인간)의 데이터를 활용하여 데이터 수집량을 줄이는 방법을 제시합니다. 핵심 아이디어는 첫째, 광학 흐름(optic flow)을 이용하여 다양한 형태의 데이터로 월드 모델(World Model, WM)을 학습하고, 목표 로봇에 대한 소량의 데이터로 미세 조정하는 것입니다. 둘째, 잠재 정책 조향(Latent Policy Steering, LPS) 기법을 통해 행동 복제 정책의 출력을 개선하여 WM의 잠재 공간에서 더 나은 행동 순서를 찾는 것입니다. 실험 결과, 제한된 데이터(30회 시연: 50% 이상, 50회 시연: 20% 이상)로 학습된 정책의 성능이 Open X-embodiment 데이터셋이나 인간의 놀이 데이터를 활용하여 사전 훈련된 WM과 결합하여 상당히 향상됨을 보였습니다.