Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Explaining Caption-Image Interactions in CLIP Models with Second-Order Attributions

Created by
  • Haebom

作者

Lucas M oller, Pascal Tilli, Ngoc Thang Vu, Sebastian Pad o

概要

本論文では、CLIPなどのデュアルエンコーダアーキテクチャが、2種類の入力を共有埋め込み空間にマッピングし、その類似性を予測する方法を分析します。従来の一次特徴帰属方法の限界を克服するために、二重エンコーダの予測に対する特徴相互作用の帰属を可能にする二次方法を提示します。 CLIPモデルにこの方法を適用して、キャプションの部分と画像領域の間のきめ細かい対応関係を学習することを示します。これは、オブジェクトのマッチングだけでなく、不一致も考慮することを意味します。しかし、これらの視覚言語ベースの能力はオブジェクトクラスによって大きく異なり、ドメイン外の効果が顕著であり、個々のエラーと系統的な障害の種類を特定できることを明らかにしています。コードは公に提供されます。

Takeaways、Limitations

Takeaways:
二重エンコーダモデルの予測に対する特徴相互作用の帰属を可能にする新しい二次方法の提示
CLIPモデルは、キャプションと画像領域の間のきめ細かな対応関係を学習し、オブジェクトの一致と不一致の両方を考慮することを明らかにします。
CLIPモデルの視覚的言語ベースの能力の強みと限界(オブジェクトクラス別の違い、ドメイン外の効果、個々のエラー、および系統的な障害の種類)を提示します。
公開されたコードで再現性を確保し、さらに研究可能。
Limitations:
CLIPモデルの視覚言語ベースの能力は、オブジェクトクラスとドメインによって大きく異なります。
個々のエラーと体系的な障害タイプが存在します。
👍