本論文は、視覚言語対照学習における意味表現を豊かにするための新しい方法であるContext-Adaptive Multi-Prompt Embeddingを提案する。従来のCLIPスタイルモデルが単一テキスト埋め込みに依存するのとは異なり、本研究では、入力テキストのさまざまな意味的側面を捉える独自の適応型トークンをそれぞれ含む複数の構造化プロンプトを導入します。 CLIPフレームワーク内で事前訓練されたLLMをテキストエンコーダとして利用して、すべてのプロンプトを単一の配信プロセスで共同で処理します。その結果、生成されたプロンプト埋め込みは統合されたテキスト表現に結合され、視覚的特徴との意味的に豊富な整列を可能にします。意味的多様性と表現品質をさらに向上させるために、多様性規制損失と否定認識損失を統合し、プロンプト間の専門化を促進し、対照的な差別を改善します。この方法は、画像テキストとビデオテキスト検索ベンチマークで一貫したパフォーマンス向上を達成します。