본 논문은 기존의 Vision-and-Language Navigation (VLN) 연구가 특정 작업에 최적화된 모델에 의존하는 경향이 있음을 지적하며, 상용화된 대규모 비전-언어 모델(LLM)을 활용하여 VLN 작업을 수행하는 가능성을 탐구합니다. 특히, 저수준의 행동 공간(egocentric view, atomic action)과 파노라마 행동 공간(discrete navigable viewpoints) 모두에서 오프더쉘 LLM인 Qwen2.5-VL-3B-Instruct의 성능을 평가합니다. R2R 데이터셋을 사용하여 미세 조정한 결과, 저수준 및 파노라마 행동 공간 모두에서 VLN 작업 수행 가능성을 확인하였으나, 전용 모델 대비 성능은 낮았습니다. (41% 성공률 달성)