Afin de relever les défis de la compréhension d'images à long terme à l'aide d'un modèle de langage à grande échelle (VLLM), cet article présente un cadre de VLLM équilibré (B-VLLM) qui utilise un module de sélection de trames adaptative conditionnelle au texte, une technique de fusion de jetons de trames temporelles, un module d'échantillonnage de jetons spatiaux et une stratégie de fusion. Pour résoudre les problèmes rencontrés par les VLLM existants, tels que la perte d'informations temporelles ou spatiales due au sous-échantillonnage de l'image ou à la réduction du nombre de jetons visuels dans chaque trame, nous proposons une méthode qui exploite efficacement les indices spatio-temporels pertinents pour la tâche tout en limitant le nombre de jetons visuels dans la fenêtre contextuelle du VLLM. Les résultats expérimentaux démontrent que le B-VLLM affiche des performances supérieures sur divers tests de compréhension d'images.