본 논문은 인간 사용자가 몸으로 체험하는 환경에서 에이전트의 상호작용을 안내하기 위해 의미적으로 명확하고 공간적으로 민감하며 직관적인 목표 명세 방법을 개발하는 것을 목표로 합니다. 특히, 사용자가 에이전트의 관찰이 아닌 자신의 카메라 뷰에서 분할 마스크를 사용하여 목표 객체를 지정할 수 있는 새로운 크로스 뷰 목표 정렬 프레임워크를 제안합니다. 인간과 에이전트의 카메라 뷰가 크게 다를 경우 행동 복제만으로는 에이전트의 행동을 인간의 의도와 일치시키는 데 실패한다는 점을 강조합니다. 이를 해결하기 위해 크로스 뷰 일관성 손실과 목표 가시성 손실이라는 두 가지 보조 목표를 도입하여 에이전트의 공간적 추론 능력을 명시적으로 향상시킵니다. 이를 바탕으로 Minecraft에서 훈련된 최첨단 에이전트인 ROCKET-2를 개발하여 추론 효율을 3배에서 6배까지 향상시켰습니다. ROCKET-2는 최초로 인간 카메라 뷰에서 직접 목표를 해석할 수 있음을 보여주며, 향상된 인간-에이전트 상호작용을 위한 길을 열었습니다.