본 논문은 Vision-Language Navigation (VLN) 분야에서 데이터 부족 문제를 해결하기 위해 새로운 데이터 증강 기법인 Rewriting-driven AugMentation (RAM)을 제안합니다. RAM은 기존의 시뮬레이터 데이터 의존이나 웹 데이터 수집의 어려움을 극복하고자, 사람이 주석한 기존 훈련 데이터를 재작성하여 새로운 관측-지시어 쌍을 생성합니다. 구체적으로, Vision-Language Models (VLMs)과 Large Language Models (LLMs)을 활용하여 객체 풍부한 장면 설명을 생성하고, Text-to-Image Generation Models (T2IMs)을 통해 다양한 객체와 공간 배치를 가진 관측 데이터를 합성합니다. 또한, LLMs을 이용하여 원본과 새 관측 간의 차이를 이유하는 관측-대조 지시어 재작성을 수행합니다. 마지막으로, 랜덤 관측 자르기 기법과 함께 혼합-집중 훈련 전략을 통해 데이터 분포의 다양성을 높이고 증강 데이터 노이즈를 억제합니다. R2R, REVERIE, R4R, R2R-CE 데이터셋에서의 실험 결과, RAM 기법이 우수한 성능과 일반화 능력을 보임을 보여줍니다.