Dans cet article, nous proposons VisionThink, une nouvelle méthode visant à améliorer l'efficacité des modèles de langage visuel (MLV) en réduisant le nombre de jetons d'image. Les MVV existants utilisent de nombreux jetons d'image beaucoup plus longs que les jetons de texte, mais la plupart des tâches pratiques n'en nécessitent pas un nombre aussi important. VisionThink commence par sous-échantillonner l'image et évalue si cela suffit à résoudre le problème. Dans le cas contraire, il génère un jeton spécial demandant une image haute résolution. Grâce à l'apprentissage par renforcement et à la stratégie LLM-as-Judge, cette méthode est appliquée aux tâches VQA générales. Des ratios de redimensionnement d'image stables et raisonnables sont obtenus grâce à des fonctions de récompense et des mécanismes de pénalité. Elle démontre une capacité de compréhension visuelle détaillée dans les tâches liées à l'OCR et réduit considérablement le nombre de jetons d'image dans les tâches simples.