Vision-Language Model (VLM)의 로봇 내비게이션 활용 잠재력을 극대화하기 위해, VLM을 수동적 관찰자가 아닌 능동적 전략가로 전환하는 프레임워크를 제시한다. 이 프레임워크는 VLM에게 고차원 계획을 위임하여, VLM이 상황적 이해를 활용하여 프론티어 기반 탐색 에이전트를 안내하도록 한다. 구조화된 사고 과정 프롬프팅, 에이전트의 최근 행동 기록 동적 포함, VLM이 탑다운 장애물 맵과 1인칭 시점을 함께 해석할 수 있는 새로운 기능을 통해 지능적인 안내를 제공한다. HM3D, Gibson, MP3D와 같은 벤치마크 테스트에서 기존 접근 방식보다 향상된 내비게이션 효율성을 보였다.