Bài báo này trình bày một khuôn khổ mới giúp cải thiện hiệu suất tạo chú thích ảnh bằng cách sử dụng các VLM tương đối nhỏ (ví dụ: BLIP) thay vì các Mô hình Ngôn ngữ Thị giác (VLM) hiện đại, tốn kém về mặt tính toán. Để giải quyết vấn đề các VLM nhỏ hiện có tập trung vào mô tả cảnh đa chiều và bỏ qua chi tiết, chúng tôi tận dụng phân đoạn có cấu trúc để tạo ra các biểu diễn phân cấp nắm bắt cả thông tin ngữ nghĩa cục bộ và toàn cục. Chúng tôi đạt được tính nhất quán, tính toàn vẹn ngữ nghĩa và tính đa dạng của chú thích ảnh tương đương với các mô hình lớn hơn mà không cần huấn luyện mô hình bổ sung. Đánh giá trên các tập dữ liệu MSCOCO, Flickr30k và Nocaps cho thấy điểm Div-2 lần lượt là 0,735, 0,750 và 0,748, thể hiện mức độ liên quan và tính toàn vẹn ngữ nghĩa cao với các chú thích do con người tạo ra.