Trong bài báo này, chúng tôi đề xuất VisionThink, một phương pháp mới để cải thiện hiệu quả của các mô hình ngôn ngữ thị giác (VLM) bằng cách giảm số lượng mã thông báo hình ảnh. Các VLM hiện có sử dụng nhiều mã thông báo hình ảnh dài hơn nhiều so với mã thông báo văn bản, nhưng hầu hết các tác vụ thực tế không yêu cầu số lượng mã thông báo lớn như vậy. VisionThink bắt đầu bằng cách giảm mẫu hình ảnh và đánh giá xem nó có đủ để giải quyết vấn đề hay không. Nếu không, nó sẽ đưa ra một mã thông báo đặc biệt yêu cầu hình ảnh có độ phân giải cao. Sử dụng học tăng cường và chiến lược LLM-as-Judge, nó được áp dụng cho các tác vụ VQA chung và đạt được tỷ lệ thay đổi kích thước hình ảnh ổn định và hợp lý thông qua các hàm thưởng và cơ chế phạt. Nó cho thấy khả năng hiểu thị giác chi tiết trong các tác vụ liên quan đến OCR và giảm đáng kể số lượng mã thông báo hình ảnh trong các tác vụ đơn giản.