Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SynC: Tinh chỉnh bộ dữ liệu chú thích ảnh tổng hợp với ánh xạ một-nhiều để chú thích ảnh không cần chụp

Created by
  • Haebom

Tác giả

Si-Woo Kim, MinJu Jeon, Ye-Chan Kim, Soeun Lee, Taewhan Kim, Dong-Jin Kim

Phác thảo

Trong bài báo này, chúng tôi đề xuất SynC, một khuôn khổ làm sạch tập dữ liệu tổng hợp cho chú thích ảnh zero-shot (ZIC). Các ZIC hiện có sử dụng các tập dữ liệu tổng hợp được tạo bởi các mô hình chuyển đổi văn bản sang hình ảnh (T2I) để giảm bớt công việc chú thích thủ công tốn kém, nhưng hình ảnh được tạo bởi các mô hình T2I thường có sự không nhất quán về mặt ngữ nghĩa với chú thích của chúng. Các kỹ thuật làm sạch dữ liệu hiện có tập trung vào việc loại bỏ các văn bản nhiễu khỏi dữ liệu thu thập trên web, điều này không phù hợp với các đặc điểm của dữ liệu tổng hợp (chú thích đúng định dạng, hình ảnh không chính xác). SynC gán lại chú thích cho các hình ảnh nhất quán nhất về mặt ngữ nghĩa với các chú thích từ nhóm hình ảnh hiện có. Đầu tiên, nó truy xuất nhiều hình ảnh ứng viên cho mỗi chú thích, sau đó chọn hình ảnh tối ưu bằng cách kiểm tra xem chú thích gốc có thể được truy xuất thông qua truy xuất hình ảnh sang văn bản hay không bằng cách sử dụng điểm căn chỉnh dựa trên tính nhất quán vòng tròn. Kết quả thử nghiệm cho thấy SynC vượt trội hơn nhiều mô hình và chuẩn ZIC khác nhau (MS-COCO, Flickr30k, NoCaps) và đạt được kết quả tiên tiến nhất.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ làm sạch dữ liệu mới, SynC, có hiệu quả giải quyết vấn đề không nhất quán về mặt ngữ nghĩa của dữ liệu tổng hợp.
Không giống như các kỹ thuật lọc hoặc tái tạo thông thường, chúng tôi cải thiện chất lượng dữ liệu bằng cách phân bổ lại các hình ảnh tối ưu trong nhóm hình ảnh hiện có.
Hiệu quả của SynC đã được chứng minh thông qua những cải tiến về hiệu suất và thành tích hiệu suất tiên tiến trên nhiều mô hình và điểm chuẩn ZIC.
Nó trình bày những khả năng mới cho việc sử dụng dữ liệu tổng hợp trong chú thích hình ảnh không cần chụp.
Limitations:
Việc cải thiện hiệu suất của SynC có thể bị giới hạn ở các chuẩn mực và mô hình cụ thể. Cần xác thực hiệu suất tổng quát trên các tập dữ liệu hoặc mô hình khác.
ĐIểm căn chỉnh dựa trên độ đồng nhất hình tròn có thể không phải lúc nào cũng chính xác trong việc lựa chọn hình ảnh tối ưu. Có thể cần đến các kỹ thuật căn chỉnh phức tạp hơn.
Do những hạn chế của mô hình T2I, chất lượng hình ảnh được tạo ra vẫn có thể ảnh hưởng đến hiệu suất của SynC. Có thể cần phải phát triển một mô hình tạo hình ảnh chất lượng cao hơn.
👍