इस पत्र में, हम विज़नथिंक (VisionThink) का प्रस्ताव करते हैं, जो छवि टोकन की संख्या कम करके दृष्टि-भाषा मॉडल (VLM) की दक्षता में सुधार करने की एक नवीन विधि है। मौजूदा VLM कई छवि टोकन का उपयोग करते हैं जो टेक्स्ट टोकन की तुलना में बहुत लंबे होते हैं, लेकिन अधिकांश व्यावहारिक कार्यों में इतनी बड़ी संख्या में टोकन की आवश्यकता नहीं होती है। विज़नथिंक छवि को डाउनसैंपलिंग करके शुरू करता है और यह निर्धारित करता है कि क्या यह समस्या को हल करने के लिए पर्याप्त है। यदि नहीं, तो यह एक उच्च-रिज़ॉल्यूशन वाली छवि का अनुरोध करने वाला एक विशेष टोकन आउटपुट करता है। सुदृढीकरण अधिगम और LLM-as-Judge रणनीति का उपयोग करते हुए, इसे सामान्य VQA कार्यों पर लागू किया जाता है, और पुरस्कार कार्यों और दंड तंत्रों के माध्यम से स्थिर और उचित छवि आकार परिवर्तन अनुपात प्राप्त किए जाते हैं। यह OCR-संबंधित कार्यों में विस्तृत दृश्य समझ क्षमता प्रदर्शित करता है, और सरल कार्यों में छवि टोकन की संख्या को बहुत कम कर देता है।