본 논문은 로봇의 시각-운동 정책 학습에 있어 기존의 많은 데모 데이터 의존성 문제를 해결하고자 다양한 형태의 데이터(다양한 로봇 데이터, 사람의 놀이 데이터 등)를 활용하는 방법을 제시합니다. 핵심 아이디어는 두 가지입니다. 첫째, 광학 흐름(optic flow)을 형태(embodiment)에 독립적인 행동 표현으로 사용하여 다양한 형태의 데이터셋으로 월드 모델(WM)을 학습하고, 목표 형태의 소량의 로봇 데이터로 미세 조정합니다. 둘째, WM의 잠재 공간에서 더 나은 행동 순서를 검색하는 잠재 정책 조향(LPS) 기법을 개발하여 행동 복제 정책의 성능을 향상시킵니다. 실험 결과, 제안된 방법은 소량의 데이터(30개 데모에서 50% 이상, 50개 데모에서 20% 이상)로 학습된 정책의 성능을 크게 향상시키는 것을 보여줍니다. Open X-embodiment 데이터셋이나 저렴한 비용의 사람 놀이 데이터셋을 활용하여 WM을 사전 학습시킨 결과를 바탕으로 합니다.