본 연구는 다양한 로봇과 인간의 행동 데이터를 활용하여 시각-운동 정책의 성능을 향상시키는 새로운 방법론인 잠재 정책 조향(Latent Policy Steering, LPS)을 제안한다. 핵심 아이디어는 광학 흐름과 같은 신체적 제약에 덜 민감한 행동 표현을 사용하여 다양한 출처의 데이터를 사전 학습한 월드 모델(World Model)을 구축하고, 이를 목표 신체에 맞게 미세 조정하여 정책 학습을 강화하는 것이다. 이를 통해 데이터 부족 환경에서도 기존 행동 복제(behavior cloning) 방식보다 훨씬 우수한 성능을 달성한다.