Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chuyển đổi mô hình ngôn ngữ thị giác không phụ thuộc mô hình có thể chuyển nhượng để tổng quát hóa từ yếu sang mạnh hiệu quả

Created by
  • Haebom

Tác giả

Jihwan Park, Bài hát Taehoon, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

Phác thảo

Bài báo này đề xuất TransMiter, một bộ chuyển đổi nhẹ cho việc truyền tải kiến thức thích ứng hiệu quả giữa các mô hình ngôn ngữ thị giác (VLM). TransMiter nắm bắt khoảng cách kiến thức giữa các VLM đã được huấn luyện trước và đã được tinh chỉnh bằng phương pháp học không giám sát, truyền tải kiến thức mà không cần lan truyền ngược. Nó bao gồm một số lượng nhỏ các lớp, có chi phí suy luận tối thiểu, và việc thêm một lượng nhỏ dữ liệu được gắn nhãn giúp cải thiện hiệu suất vượt xa mô hình mạnh mẽ, tinh chỉnh. Kết quả thực nghiệm chứng minh rằng TransMiter truyền tải kiến thức thích ứng hiệu quả trên các VLM với nhiều kích cỡ và kiến trúc khác nhau, đồng thời vẫn duy trì khả năng khái quát hóa.

Takeaways, Limitations

Takeaways:
Một phương pháp hiệu quả cho phép truyền tải kiến thức thích ứng trong VLM mà không cần truyền ngược được trình bày.
Giảm thiểu chi phí suy luận bằng thiết kế bộ điều hợp nhẹ.
Cải thiện hiệu suất bằng cách tận dụng lượng nhỏ dữ liệu được gắn nhãn.
Duy trì hiệu suất tuyệt vời và khả năng tổng quát trên nhiều VLM có nhiều kích cỡ và kiến trúc khác nhau.
Limitations:
Cải tiến về hiệu suất của TransMiter có thể chỉ giới hạn ở một số tập dữ liệu hoặc tác vụ cụ thể.
Hiệu suất có thể giảm sút do hạn chế của phương pháp học không giám sát.
Cần phải xác thực thêm hiệu suất tổng quát trên nhiều kiến trúc VLM khác nhau.
👍