Vision-and-Language Navigation (VLN)에서 고성능 모델 학습을 위한 대량의 데이터 확보가 어려운 문제를 해결하기 위해, 본 논문은 NavRAG라는 retrieval-augmented generation (RAG) 프레임워크를 제안합니다. NavRAG는 LLM을 활용하여 3D 환경에 대한 계층적 장면 설명 트리를 구축하고, 다양한 사용자 역할과 요구를 시뮬레이션하여 장면 트리에서 정보를 검색합니다. 이를 통해 사용자의 의도를 반영하는 다양한 탐색 지침을 생성하며, 861개의 장면에 걸쳐 2백만 개 이상의 탐색 지침을 주석화하여 데이터 품질과 모델 성능을 평가합니다. 기존 방법들의 단순한 단계별 지침 생성 및 지역적 탐색 경로 중심의 한계를 극복하고, 전역적 맥락과 고차원적인 작업 계획을 고려한 지침 생성을 목표로 합니다.