Trong bài báo này, chúng tôi đề xuất VIPER, một khuôn khổ mới cho lập kế hoạch được hướng dẫn trực quan. VIPER tích hợp nhận thức dựa trên Mô hình Ngôn ngữ Thị giác (VLM) và suy luận dựa trên Mô hình Ngôn ngữ Lớn (LLM). Nó sử dụng một đường ống mô-đun, trong đó VLM tạo ra các mô tả văn bản về quan sát hình ảnh, và chính sách LLM dự đoán các hành động dựa trên mục tiêu nhiệm vụ. Chúng tôi tinh chỉnh mô-đun suy luận bằng cách sử dụng sao chép hành động và học tăng cường để nâng cao khả năng ra quyết định của tác nhân. Kết quả thử nghiệm trên chuẩn ALFWorld chứng minh rằng VIPER vượt trội đáng kể so với lập kế hoạch được hướng dẫn trực quan hiện đại và thu hẹp khoảng cách hiệu suất với các oracle hoàn toàn dựa trên văn bản. Bằng cách tận dụng văn bản làm biểu diễn trung gian, chúng tôi nâng cao khả năng giải thích và cho phép phân tích chi tiết các thành phần nhận thức và suy luận.