En este artículo, proponemos VisionThink, un novedoso método para mejorar la eficiencia de los modelos de visión-lenguaje (VLM) mediante la reducción del número de tokens de imagen. Los VLM existentes utilizan muchos tokens de imagen mucho más largos que los de texto, pero la mayoría de las tareas prácticas no requieren una cantidad tan grande de tokens. VisionThink comienza submuestreando la imagen y determina si es suficiente para resolver el problema. De no ser así, genera un token especial que solicita una imagen de alta resolución. Mediante aprendizaje por refuerzo y la estrategia LLM como juez, se aplica a tareas generales de VQA, logrando relaciones de redimensionamiento de imagen estables y razonables mediante funciones de recompensa y mecanismos de penalización. Demuestra una capacidad de comprensión visual detallada en tareas relacionadas con OCR y reduce considerablemente el número de tokens de imagen en tareas simples.