자율 검사 로봇이 고수준 목표를 이해하고 정확한 제어를 수행하기 위해 필요한 능력인 공간적 근거 능력을 향상시키기 위한 연구. 대규모 언어 모델을 활용하여 목표를 설정하지만, 시각적 제어 성공률이 낮다는 한계점을 인식하고, 좁은 영역의 세계 모델을 활용하여 성능을 개선하고자 함. 특히, 목표 상태 감독만을 사용하여 공유 잠재 공간에서 상태별로 액션 유도 변화를 학습하는 태스크 특정 잠재 역학 모델을 제안함. 이 모델은 전역 액션 임베딩과 보완적인 훈련 손실을 활용하여 학습을 안정화시킴. 실험 결과, 제안된 모델이 71%의 성공률을 달성하고, 보이지 않는 이미지와 지침에 대한 일반화 능력을 보임.