Bài báo này đề xuất "Tư duy trực quan", một khuôn khổ mới mô phỏng tư duy của con người để cải thiện hiệu suất của các mô hình đa phương thức (LMM) quy mô lớn trên các tác vụ phức tạp, nhiều giai đoạn. Tư duy trực quan khắc phục những hạn chế của tư duy dựa trên văn bản bằng cách cho phép LMM suy luận bằng cách sử dụng sơ đồ khái niệm tự tạo. Khuôn khổ này được tối ưu hóa bằng cách tích hợp tìm kiếm chùm tia và quay lui sâu vào một khuôn khổ suy luận dựa trên đồ thị, cho phép áp dụng phương pháp zero-shot chỉ hoạt động trên mô tả tác vụ. Các kết quả thử nghiệm trong lĩnh vực lập kế hoạch PDDL cho thấy những cải tiến đáng kể so với các phương pháp hiện có trên nhiều bài toán lập kế hoạch phức tạp, chẳng hạn như Blocksworld và Floor Tiles. Cụ thể, nó cải thiện đáng kể tỷ lệ giải của mô hình GPT-4o trên bài toán Blocksworld từ 35,5% lên 90,2%, và thậm chí còn vượt trội hơn mô hình xem trước o1 trong các tác vụ khó hơn. Điều này chứng minh vai trò quan trọng của sơ đồ khái niệm như một phương tiện suy luận cho LMM.