Bài báo này đề xuất Nhúng Đa Dấu Nhắc Thích Ứng Theo Ngữ Cảnh (Context-Adaptive Multi-Prompt Embedding), một phương pháp mới để làm phong phú các biểu diễn ngữ nghĩa trong học tập tương phản ngôn ngữ hình ảnh. Không giống như các mô hình kiểu CLIP hiện có dựa trên một nhúng văn bản duy nhất, nghiên cứu này giới thiệu nhiều dấu nhắc có cấu trúc, mỗi dấu nhắc chứa các mã thông báo thích ứng duy nhất nắm bắt các khía cạnh ngữ nghĩa khác nhau của văn bản đầu vào. Trong khuôn khổ CLIP, chúng tôi tận dụng một LLM được đào tạo trước làm bộ mã hóa văn bản để cùng xử lý tất cả các dấu nhắc trong một lần chạy. Các nhúng dấu nhắc kết quả được kết hợp thành một biểu diễn văn bản thống nhất, cho phép căn chỉnh ngữ nghĩa phong phú hơn với các đặc điểm trực quan. Để nâng cao hơn nữa tính đa dạng ngữ nghĩa và chất lượng biểu diễn, chúng tôi kết hợp các tổn thất chính quy hóa tính đa dạng và tổn thất nhận dạng phủ định để khuyến khích sự chuyên môn hóa giữa các dấu nhắc và cải thiện khả năng phân biệt tương phản. Phương pháp của chúng tôi đạt được mức tăng hiệu suất nhất quán trên các điểm chuẩn truy xuất hình ảnh sang văn bản và video sang văn bản.