본 논문은 시각적 지시에 기반한 계획을 위한 새로운 프레임워크인 VIPER를 제시합니다. VIPER는 VLM(Vision-Language Model) 기반의 지각과 LLM(Large Language Model) 기반의 추론을 통합하여 작동합니다. 고정된 VLM이 이미지 관찰에 대한 텍스트 설명을 생성하고, 이를 LLM 정책이 작업 목표에 기반하여 행동을 예측하는 데 사용합니다. 행동 복제 및 강화 학습을 통해 추론 모듈을 미세 조정하여 에이전트의 의사 결정 능력을 향상시켰습니다. ALFWorld 벤치마크 실험 결과, VIPER는 최첨단 시각적 지시 기반 계획보다 성능이 훨씬 우수하며, 순수 텍스트 기반 오라클과의 성능 차이를 줄였습니다. 텍스트를 중간 표현으로 활용하여 설명 가능성을 높였고, 지각 및 추론 구성 요소에 대한 세분화된 분석을 가능하게 합니다.