Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Spotlighter: Xem xét lại việc điều chỉnh nhanh chóng từ góc nhìn khai thác đại diện

Created by
  • Haebom

Tác giả

Yutong Gao, Maoyuan Shao, Xinyang Huang, Chuang Zhu, Lijuan Sun, Yu Weng, Xuân Liu, Guoshun Nan

Phác thảo

Dựa trên thành công của việc điều chỉnh nhanh của CLIP, chúng tôi đề xuất Spotlighter, một khuôn khổ lựa chọn mã thông báo nhẹ, đồng thời cải thiện độ chính xác và hiệu quả bằng cách loại bỏ các tính năng dư thừa hoặc tương quan yếu gây ra chi phí tính toán không cần thiết. Spotlighter đánh giá việc kích hoạt từng mã thông báo trực quan ở cả cấp độ mẫu theo mẫu và ngữ nghĩa theo nghĩa, chỉ giữ lại các mã thông báo có điểm cao nhất cho các dự đoán hạ lưu. Một ngân hàng bộ nhớ ngữ nghĩa cụ thể theo lớp của các nguyên mẫu đã học sẽ tăng cường lựa chọn này, đảm bảo tính đại diện ngữ nghĩa và bù đắp cho các tính năng bị loại bỏ. Hơn nữa, chúng tôi giới thiệu một cơ chế xếp hạng hai giai đoạn, tự động cân nhắc các tương tác mã thông báo-nguyên mẫu để ưu tiên các tín hiệu thông tin. Trên 11 điểm chuẩn ít lần chụp, Spotlighter cải thiện độ chính xác trung bình hài hòa lên tới 11,19% so với CLIP và đạt được cải thiện lên tới 0,8K FPS chỉ với 21 tham số bổ sung. Những kết quả này thiết lập Spotlighter như một đường cơ sở hiệu quả và có thể mở rộng cho việc điều chỉnh nhanh. Mã có sẵn tại https://github.com/greatest-gourmet/Spotlighter .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ lựa chọn mã thông báo nhẹ hiệu quả, đồng thời cải thiện độ chính xác và hiệu quả của việc điều chỉnh nhanh chóng.
Giảm chi phí tính toán không cần thiết và cải thiện độ chính xác bằng cách đánh giá kích hoạt mã thông báo ở cấp độ mẫu và ngữ nghĩa.
Chúng tôi tận dụng các ngân hàng bộ nhớ ngữ nghĩa cụ thể của từng lớp để đảm bảo tính đại diện ngữ nghĩa và bù đắp cho các tính năng bị loại bỏ.
Cơ chế xếp hạng hai bước ưu tiên các tín hiệu mang tính thông tin.
Nó vượt trội hơn CLIP ở nhiều tiêu chuẩn khác nhau.
Limitations:
Có thể cần phải xác nhận thêm tính tổng quát của phương pháp đề xuất.
Có thể cần tối ưu hóa cho các tập dữ liệu hoặc nhiệm vụ cụ thể.
Có thể cần nghiên cứu thêm về quy mô và cấu trúc của ngân hàng bộ nhớ.
👍