본 논문은 3D 환경에서 에이전트와의 상호작용을 안내하기 위해 의미적으로 명확하고, 공간적으로 민감하며, 도메인에 독립적이고, 사용자에게 직관적인 목표 지정 방법을 개발하는 것을 목표로 합니다. 특히, 사용자가 에이전트의 관찰이 아닌 자신의 카메라 뷰에서 분할 마스크를 사용하여 목표 객체를 지정할 수 있는 새로운 크로스 뷰 목표 정렬 프레임워크를 제안합니다. 인간과 에이전트의 카메라 뷰가 크게 다를 경우 행동 복제만으로는 에이전트의 행동을 인간의 의도와 일치시키는 데 실패한다는 점을 강조합니다. 이를 해결하기 위해 크로스 뷰 일관성 손실과 목표 가시성 손실이라는 두 가지 보조 목표를 도입하여 에이전트의 공간적 추론 능력을 명시적으로 향상시킵니다. 이를 바탕으로 Minecraft에서 훈련된 최첨단 에이전트인 ROCKET-2를 개발하여 ROCKET-1에 비해 추론 효율을 3배에서 6배까지 향상시켰습니다. ROCKET-2는 인간 카메라 뷰에서 목표를 직접 해석하여 인간-에이전트 상호 작용을 개선할 수 있음을 보여줍니다. 주목할 만하게 ROCKET-2는 제로샷 일반화 능력을 보여줍니다. Minecraft 데이터셋에서만 독점적으로 훈련되었음에도 불구하고, 간단한 액션 공간 매핑을 통해 Doom, DMLab 및 Unreal과 같은 다른 3D 환경에 적응하고 일반화할 수 있습니다.