[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự thích ứng hiệu quả của bộ chuyển đổi thị giác được đào tạo trước được hỗ trợ bởi Chiến lược tinh chỉnh trực giao gần đúng

Created by
  • Haebom

Tác giả

Yiting Yang, Hao Luo, Yuan Sun, Qingsen Yan, Haokui Zhang, Wei Dong, Guoqing Wang, Peng Wang, Yang Yang, Hengtao Shen

Phác thảo

Bài báo này chỉ ra những hạn chế của ma trận trọng số thích ứng chiều thấp (như LoRA và Adapter) chủ yếu được sử dụng trong Điều chỉnh hiệu quả tham số (PEFT) của Bộ chuyển đổi thị giác (ViT), đồng thời trình bày một phương pháp cải tiến. Các phương pháp hiện có không thể phản ánh tính trực giao gần đúng của các tham số xương sống đã học trước vào các ma trận chiều thấp, dẫn đến hiệu suất tổng quát hóa kém. Trong bài báo này, chúng tôi đề xuất một chiến lược Điều chỉnh tinh chỉnh xấp xỉ trực giao (AOFT) xây dựng một ma trận chiều thấp bằng cách tạo ra các vectơ trực giao gần đúng bằng cách sử dụng một vectơ học được duy nhất. Thông qua đó, chúng tôi chứng minh bằng thực nghiệm rằng nó cải thiện hiệu suất tổng quát hóa bằng cách truyền các thuộc tính tương tự với các tham số xương sống đã học trước vào các ma trận chiều thấp, và đạt được hiệu suất cạnh tranh trong nhiều tác vụ phân loại hình ảnh.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc áp dụng tính trực giao gần đúng của xương sống ViT được đào tạo trước vào các ma trận thích ứng chiều thấp có thể cải thiện hiệu suất tổng quát hóa.
Chúng tôi chứng minh rằng chiến lược AOFT có thể cải thiện hiệu suất của PEFT và đạt được kết quả cạnh tranh.
Chúng tôi trình bày một phương pháp hiệu quả để tạo ra các ma trận trực giao gần đúng bằng cách sử dụng một vectơ có thể học được duy nhất.
Limitations:
Vì hiệu quả của chiến lược AOFT được đề xuất chỉ giới hạn ở các nhiệm vụ phân loại hình ảnh nên khả năng tổng quát hóa của nó sang các nhiệm vụ thị giác khác cần được nghiên cứu thêm.
Thiếu phân tích lý thuyết về tác động của tính trực giao gần đúng trong việc cải thiện hiệu suất tổng quát hóa.
Cần có một phân tích so sánh sâu hơn với các phương pháp PEFT khác.
👍