본 논문은 Vision-and-Language Navigation (VLN) 분야의 최신 발전을 검토하고, 특히 로봇 분야에서의 응용에 초점을 맞추어 다루고 있습니다. VLN은 인간의 지시를 해석하고, 3D 환경을 탐색하며, 모호한 상황에서도 효과적으로 소통해야 하는 다중 모달 협력 작업입니다. 약 200편의 관련 논문을 검토하여, VLN과 로봇 공학의 교차점에 대한 심층적인 이해를 제공하고 미래 연구 방향을 제시합니다. 구체적으로, 능동적인 명확화, 실시간 피드백, 고급 자연어 이해(NLU) 기술을 통한 상황적 추론을 지원하는 VLN 시스템의 필요성을 강조하며, 확장 가능하고 효율적인 다중 로봇 협력을 위해 분산 의사 결정 프레임워크와 동적 역할 할당이 중요하다고 주장합니다.