Este artículo presenta un nuevo marco que mejora el rendimiento de la generación de subtítulos de imágenes mediante el uso de VLM relativamente pequeños (p. ej., BLIP) en lugar de los Modelos de Visión-Lenguaje (VLM) de última generación, con un alto coste computacional. Para abordar el problema de que los VLM pequeños existentes se centran en descripciones de escenas de alta dimensión y pasan por alto los detalles, aprovechamos la segmentación estructurada para generar representaciones jerárquicas que capturan información semántica tanto global como local. Logramos consistencia, integridad semántica y diversidad entre subtítulos de imágenes comparables a las de modelos más grandes sin entrenamiento adicional. La evaluación en los conjuntos de datos MSCOCO, Flickr30k y Nocaps arrojó puntuaciones Div-2 de 0,735, 0,750 y 0,748, respectivamente, lo que demuestra una alta relevancia e integridad semántica con subtítulos generados por humanos.