Cet article présente un nouveau cadre qui améliore les performances de génération de légendes d'images en utilisant des modèles de langage visuel (VLM) relativement petits (par exemple, des BLIP) plutôt que des modèles de langage visuel (VLM) de pointe, coûteux en calcul. Pour résoudre le problème selon lequel les petits VLM existants se concentrent sur les descriptions de scènes de grande dimension et négligent les détails, nous utilisons la segmentation structurée pour générer des représentations hiérarchiques qui capturent les informations sémantiques globales et locales. Nous obtenons une cohérence image-légende, une intégrité sémantique et une diversité comparables à celles de modèles plus grands, sans entraînement supplémentaire. L'évaluation sur les jeux de données MSCOCO, Flickr30k et Nocaps a donné des scores Div-2 de 0,735, 0,750 et 0,748 respectivement, démontrant une pertinence et une intégrité sémantique élevées pour les légendes générées par l'homme.