Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phương pháp lấy mẫu nhúng hình ảnh cho phụ đề đa dạng

Created by
  • Haebom

Tác giả

Sania Waheed, Na Min An

Phác thảo

Bài báo này trình bày một khuôn khổ mới giúp cải thiện hiệu suất tạo chú thích ảnh bằng cách sử dụng các VLM tương đối nhỏ (ví dụ: BLIP) thay vì các Mô hình Ngôn ngữ Thị giác (VLM) hiện đại, tốn kém về mặt tính toán. Để giải quyết vấn đề các VLM nhỏ hiện có tập trung vào mô tả cảnh đa chiều và bỏ qua chi tiết, chúng tôi tận dụng phân đoạn có cấu trúc để tạo ra các biểu diễn phân cấp nắm bắt cả thông tin ngữ nghĩa cục bộ và toàn cục. Chúng tôi đạt được tính nhất quán, tính toàn vẹn ngữ nghĩa và tính đa dạng của chú thích ảnh tương đương với các mô hình lớn hơn mà không cần huấn luyện mô hình bổ sung. Đánh giá trên các tập dữ liệu MSCOCO, Flickr30k và Nocaps cho thấy điểm Div-2 lần lượt là 0,735, 0,750 và 0,748, thể hiện mức độ liên quan và tính toàn vẹn ngữ nghĩa cao với các chú thích do con người tạo ra.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc tạo chú thích hình ảnh hiệu suất cao là khả thi ngay cả trong môi trường có nguồn lực tính toán hạn chế (ví dụ: thiết bị di động, công nghệ hỗ trợ).
Chúng tôi trình bày một phương pháp hiệu quả để cải thiện đáng kể hiệu suất của VLM nhỏ mà không cần đào tạo mô hình bổ sung.
Chúng tôi chứng minh rằng kỹ thuật tạo biểu diễn phân cấp sử dụng phân đoạn cấu trúc có hiệu quả trong việc tăng tính đa dạng và tính thông tin của chú thích hình ảnh.
Limitations:
Khung đề xuất có thể phụ thuộc vào một VLM nhỏ cụ thể (BLIP). Hiệu suất tổng quát hóa cho các VLM nhỏ khác cần được nghiên cứu thêm.
Độ Chính xác của phân đoạn cấu trúc có thể ảnh hưởng đến chất lượng của chú thích cuối cùng. Việc cải thiện hiệu suất phân đoạn có thể góp phần cải thiện hiệu suất trong tương lai.
Ngoài điểm Div-2 được sử dụng trong bài báo này, có thể cần phải phân tích hiệu suất đa diện bằng cách thêm các số liệu đánh giá khác.
👍