본 논문에서는 시각적 지시에 기반한 계획을 위한 새로운 프레임워크인 VIPER를 제안합니다. VIPER는 VLM(Vision-Language Model) 기반의 지각과 LLM(Large Language Model) 기반의 추론을 통합하여, VLM이 이미지 관찰에 대한 텍스트 설명을 생성하고, 이를 LLM 정책이 작업 목표에 따라 행동을 예측하는 모듈식 파이프라인을 사용합니다. 행동 복제 및 강화 학습을 통해 추론 모듈을 미세 조정하여 에이전트의 의사 결정 능력을 향상시켰습니다. ALFWorld 벤치마크 실험 결과, VIPER는 기존 최첨단 시각적 지시 기반 계획보다 성능이 훨씬 뛰어나며, 순수 텍스트 기반 오라클과의 성능 차이를 줄였습니다. 텍스트를 중간 표현으로 활용함으로써 설명 가능성을 높여 지각 및 추론 구성 요소에 대한 세부 분석을 가능하게 합니다.