Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nói chuyện với DINO: Kết nối xương sống của tầm nhìn tự giám sát với ngôn ngữ để phân đoạn từ vựng mở

작성자
  • Haebom

Tác giả

Luca Barsellotti, Lorenzo Bianchi, Nicola Messina, Fabio Carrara, Marcella Cornia, Lorenzo Baraldi, Fabrizio Falchi, Rita Cucchiara

Phác thảo

Talk2DINO là một bài báo về Phân đoạn Từ vựng Mở (OVS) trình bày một phương pháp lai mới kết hợp độ chính xác không gian của DINOv2 với khả năng hiểu ngôn ngữ của CLIP. Để giải quyết những thách thức về định vị không gian trong các mô hình ngôn ngữ thị giác hiện có và việc thiếu tích hợp ngôn ngữ trong các mô hình thị giác dựa trên học tự giám sát, chúng tôi căn chỉnh các nhúng văn bản của CLIP với các đặc trưng cấp độ bản vá của DINOv2 bằng cách sử dụng một hàm ánh xạ đã học. Chúng tôi tận dụng các bản đồ chú ý của DINOv2 để căn chỉnh có chọn lọc các bản vá thị giác cục bộ với các nhúng văn bản, mà không cần tinh chỉnh xương sống cơ bản. Chúng tôi chứng minh rằng Talk2DINO tạo ra các phân đoạn tự nhiên, ít nhiễu và phân biệt hiệu quả các đối tượng tiền cảnh với hậu cảnh. Nó đạt được hiệu suất tiên tiến trên một số điểm chuẩn OVS không giám sát. Mã nguồn và các mô hình được công khai.

Takeaways, Limitations

Takeaways:
Kết hợp những ưu điểm của DINOv2 và CLIP để khắc phục những hạn chế của các phương pháp OVS hiện có.
Học tập hiệu quả và nâng cao hiệu suất thông qua việc phân loại có chọn lọc bằng cách sử dụng bản đồ chú ý.
ĐạT được hiệu suất tuyệt vời mà không cần tinh chỉnh xương sống.
Tạo ra kết quả phân đoạn tự nhiên, ít nhiễu.
Phân biệt hiệu quả giữa tiền cảnh và hậu cảnh.
ĐạT được hiệu suất tiên tiến và mã nguồn mở cùng các mô hình.
Limitations:
Bài báo này không đề cập trực tiếp đến các vấn đề Limitations cụ thể. Đây là những lĩnh vực có thể được khám phá thông qua thử nghiệm hoặc phân tích sâu hơn (ví dụ: lỗ hổng bảo mật đối với các loại hình ảnh hoặc văn bản cụ thể, chi phí tính toán, khả năng mở rộng, v.v.).
👍