본 논문은 Vision-and-Language Navigation (VLN) 분야의 제한된 훈련 데이터의 다양성 및 규모 문제를 해결하기 위해 RoomTour3D라는 새로운 데이터셋을 제시합니다. 기존 시뮬레이터의 수동 큐레이션에 의존하는 대신, 웹 기반의 실제 실내 공간 룸 투어 비디오를 활용하여 다양하고 대규모의 데이터를 생성합니다. RoomTour3D는 오픈엔드형 인간 보행 경로와 오픈월드 탐색 가능한 지시 사항을 제공하며, 비디오 내 탐색 데이터 부족 문제를 해결하기 위해 3D 재구성 및 경로의 3D 궤적을 추출하여 방 유형, 물체 위치, 주변 환경의 3D 형태 등의 추가 정보를 포함시킵니다. 약 10만 개의 오픈엔드 설명이 풍부한 궤적과 약 20만 개의 지시 사항, 그리고 1847개의 룸 투어 환경에서 얻은 1만 7천 개의 액션이 풍부한 궤적을 포함합니다. 실험을 통해 RoomTour3D가 CVDN, SOON, R2R, REVERIE 등 다양한 VLN 작업에서 성능 향상을 가져온다는 것을 보여주며, 제로샷 VLN 에이전트 개발에도 기여할 수 있음을 시사합니다.