Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nhúng đa dấu nhắc thích ứng theo ngữ cảnh với các mô hình ngôn ngữ lớn để căn chỉnh tầm nhìn-ngôn ngữ

Created by
  • Haebom

Tác giả

Dahun Kim, Anelia Angelova

Phác thảo

Bài báo này đề xuất Nhúng Đa Dấu Nhắc Thích Ứng Theo Ngữ Cảnh (Context-Adaptive Multi-Prompt Embedding), một phương pháp mới để làm phong phú các biểu diễn ngữ nghĩa trong học tập tương phản ngôn ngữ hình ảnh. Không giống như các mô hình kiểu CLIP hiện có dựa trên một nhúng văn bản duy nhất, nghiên cứu này giới thiệu nhiều dấu nhắc có cấu trúc, mỗi dấu nhắc chứa các mã thông báo thích ứng duy nhất nắm bắt các khía cạnh ngữ nghĩa khác nhau của văn bản đầu vào. Trong khuôn khổ CLIP, chúng tôi tận dụng một LLM được đào tạo trước làm bộ mã hóa văn bản để cùng xử lý tất cả các dấu nhắc trong một lần chạy. Các nhúng dấu nhắc kết quả được kết hợp thành một biểu diễn văn bản thống nhất, cho phép căn chỉnh ngữ nghĩa phong phú hơn với các đặc điểm trực quan. Để nâng cao hơn nữa tính đa dạng ngữ nghĩa và chất lượng biểu diễn, chúng tôi kết hợp các tổn thất chính quy hóa tính đa dạng và tổn thất nhận dạng phủ định để khuyến khích sự chuyên môn hóa giữa các dấu nhắc và cải thiện khả năng phân biệt tương phản. Phương pháp của chúng tôi đạt được mức tăng hiệu suất nhất quán trên các điểm chuẩn truy xuất hình ảnh sang văn bản và video sang văn bản.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc tận dụng nhiều lời nhắc có thể tăng cường sự phong phú của các biểu diễn ngữ nghĩa trong quá trình học tương phản bằng hình ảnh-lời nói.
Chúng tôi trình bày một phương pháp sử dụng hiệu quả các LLM được đào tạo trước để nắm bắt nhiều khía cạnh ngữ nghĩa khác nhau.
Nó đạt được sự cải thiện hiệu suất thông qua việc mất điều chỉnh tính đa dạng và mất nhận dạng tiêu cực.
Chúng tôi thực nghiệm chứng minh sự cải thiện hiệu suất trong các tác vụ truy xuất hình ảnh thành văn bản và video thành văn bản.
Limitations:
Phương pháp đề xuất có thể tốn kém hơn về mặt tính toán so với các phương pháp hiện có (xử lý nhiều dấu nhắc).
Có thể có một số sự phụ thuộc vào các LLM cụ thể.
Có thể cần nghiên cứu thêm để xác định cài đặt siêu tham số tối ưu cho tổn thất chuẩn hóa đa dạng và tổn thất nhận dạng phủ định.
Do hạn chế của chuẩn mực được sử dụng, có thể cần phải xác nhận thêm hiệu suất tổng quát.
👍