Pour résoudre le problème de la génération d'un grand nombre de jetons visuels dans le traitement d'images haute résolution, cet article propose AVG-LLaVA, un modèle multimodal à grande échelle (LMM) qui sélectionne de manière adaptative la granularité visuelle en fonction des images et des directives d'entrée. AVG-LLaVA génère des jetons visuels de différentes granularités via plusieurs couches de pooling et sélectionne la granularité appropriée à l'aide d'un routeur de granularité visuelle composé d'un transformateur, d'un MLP et d'une couche de vote. De plus, nous présentons RGLF, une nouvelle méthode d'apprentissage qui aligne les prédictions du routeur sur les préférences du LMM sans nécessiter d'annotation manuelle supplémentaire. Les résultats expérimentaux montrent qu'AVG-LLaVA atteint d'excellentes performances sur 11 benchmarks, réduit significativement le nombre de jetons visuels et améliore la vitesse d'inférence (par exemple, une réduction de 85,3 % des jetons visuels et une augmentation de 2,53 fois la vitesse d'inférence sur le benchmark AI2D).