この論文では、計算コストの高い最新のVLM(Vision-Language Models)ではなく、比較的小さなVLM(BLIPなど)を使用して画像キャプション生成のパフォーマンスを向上させる新しいフレームワークを紹介します。既存の小さなVLMが高次元のシーン描写に焦点を当てて詳細を見落とす問題を解決するために、構造分割を利用して階層表現を生成することによって、グローバルおよびローカルの意味情報の両方をキャプチャします。追加のモデルトレーニングなしで、大規模なモデルと比較可能な画像キャプションの整合性、意味的な整合性、および多様性を達成します。 MSCOCO、Flickr30k、Nocapsデータセットで評価した結果、Div-2スコアはそれぞれ0.735、0.750、0.748を記録し、人間が書いたキャプションとの高い関連性と意味的完全性を維持しました。