비전 언어 모델(VLMs)은 시각적 질문 응답부터 이미지 캡셔닝에 이르기까지 다양한 작업을 처리할 수 있다. 본 논문은 VLM 컨텍스트에서 탐구되지 않은 새로운 작업인 맵 파싱에 초점을 맞추고 있으며, 특히 모바일 로봇에 유용하다. 맵 파싱은 레이블뿐만 아니라 맵의 기하학적 구성, 즉, 어떤 영역이 어떤 모양이며 어떻게 연결되어 있는지 이해해야 한다. VLM의 맵 파싱 성능을 평가하기 위해, 우리는 VLM에 평면도 맵을 제공하여 복잡한 실내 탐색을 위한 작업 계획을 생성하도록 했다. 그 결과, 문과 같은 9개의 탐색 동작 시퀀스가 필요한 작업에서 0.96의 성공률을 보이며 맵 파싱에서 VLM의 놀라운 능력을 보여주었다. VLM은 작은 맵과 간단한 탐색 작업에서 더 좋은 성능을 보였으며, 넓은 개방된 공간에서 성능이 저하되는 흥미로운 관찰 결과도 있었다. 이러한 과제를 해결하기 위한 실질적인 제안을 실험 결과를 통해 제시한다.