Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment

Created by
  • Haebom

作者

Dahun Kim, Anelia Angelova

概要

本論文は、視覚言語対照学習における意味表現を豊かにするための新しい方法であるContext-Adaptive Multi-Prompt Embeddingを提案する。従来のCLIPスタイルモデルが単一テキスト埋め込みに依存するのとは異なり、本研究では、入力テキストのさまざまな意味的側面を捉える独自の適応型トークンをそれぞれ含む複数の構造化プロンプトを導入します。 CLIPフレームワーク内で事前訓練されたLLMをテキストエンコーダとして利用して、すべてのプロンプトを単一の配信プロセスで共同で処理します。その結果、生成されたプロンプト埋め込みは統合されたテキスト表現に結合され、視覚的特徴との意味的に豊富な整列を可能にします。意味的多様性と表現品質をさらに向上させるために、多様性規制損失と否定認識損失を統合し、プロンプト間の専門化を促進し、対照的な差別を改善します。この方法は、画像テキストとビデオテキスト検索ベンチマークで一貫したパフォーマンス向上を達成します。

Takeaways、Limitations

Takeaways:
複数のプロンプトを利用して、視覚言語対照学習における意味表現の豊かさを向上させることができることを示しています。
事前に訓練されたLLMを効果的に活用して、さまざまな意味的側面を捉える方法を紹介します。
多様性規制損失と否定認識損失により、パフォーマンスの向上につながります。
画像 - テキストおよびビデオ - テキスト検索の課題におけるパフォーマンスの向上を実験的に検証します。
Limitations:
提案された方法の計算コストが従来の方法よりも高くなる可能性があります。 (マルチプロンプト処理)
特定のLLMに依存する部分が存在してもよい。
多様性規制損失と否定認識損失の最適なハイパーパラメータ設定に関する追加の研究が必要になる場合があります。
使用されるベンチマークの制限により、一般化パフォーマンスの追加検証が必要になる場合があります。
👍