본 논문은 계산 비용이 높은 최첨단 VLMs(Vision-Language Models) 대신, 비교적 작은 VLM(예: BLIP)을 사용하여 이미지 캡션 생성의 성능을 향상시키는 새로운 프레임워크를 제시합니다. 기존의 작은 VLMs이 고차원적인 장면 묘사에 집중하여 세부 정보를 간과하는 문제를 해결하기 위해, 구조적 분할(structured segmentation)을 활용하여 계층적 표현을 생성함으로써 전역적 및 지역적 의미 정보 모두를 포착합니다. 추가적인 모델 훈련 없이도, 큰 모델들과 비교할 만한 이미지-캡션 정합성, 의미적 무결성, 다양성을 달성합니다. MSCOCO, Flickr30k, Nocaps 데이터셋에서 평가한 결과, Div-2 점수가 각각 0.735, 0.750, 0.748을 기록하며, 인간이 작성한 캡션과의 높은 관련성 및 의미적 무결성을 유지했습니다.