Para abordar el problema de generar una gran cantidad de tokens visuales en el procesamiento de imágenes de alta resolución, este artículo propone AVG-LLaVA, un modelo multimodal a gran escala (LMM) que selecciona adaptativamente la granularidad visual basándose en las imágenes y directivas de entrada. AVG-LLaVA genera tokens visuales de diversas granularidades mediante múltiples capas de agrupación y selecciona la granularidad adecuada mediante un enrutador de granularidad visual compuesto por un transformador, un MLP y una capa de votantes. Además, presentamos RGLF, un novedoso método de entrenamiento que alinea las predicciones del enrutador con las preferencias del LMM sin necesidad de anotación manual adicional. Los resultados experimentales muestran que AVG-LLaVA alcanza un rendimiento excelente en 11 pruebas de referencia, reduce significativamente la cantidad de tokens visuales y mejora la velocidad de inferencia (p. ej., una reducción del 85,3 % en los tokens visuales y un aumento de 2,53 veces en la velocidad de inferencia en la prueba de referencia AI2D).