Vision-and-Language Navigation (VLN)에서 데이터 부족 문제를 해결하기 위해, 본 논문은 NavRAG라는 retrieval-augmented generation (RAG) 프레임워크를 제안합니다. NavRAG는 LLM을 활용하여 계층적 장면 설명 트리를 구축하고, 다양한 사용자 역할을 시뮬레이션하여 장면 트리에서 필요한 정보를 검색하여 다양한 안내문을 생성합니다. 기존 방법들의 단순한 단계별 안내 생성 방식과 달리, 전역적 맥락과 고차원적인 작업 계획을 고려한 다양하고 사용자 친화적인 안내문을 생성하는 것을 목표로 합니다. 861개의 장면에 걸쳐 2백만 개 이상의 탐색 안내문을 주석화하여 데이터 품질과 학습된 모델의 탐색 성능을 평가했습니다.