Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Evaluating Compositional Generalisation in VLMs and Diffusion Models

Created by
  • Haebom

作者

Beth Pearson, Bilal Boulbarss, Michael Wray, Martha Lewis

概要

本論文は、自然言語セマンティクスの基本的な側面である既存の部分の組み合わせによる新しい意味形成能力についてのVision-Language Model(VLM)の性能を評価します。 CLIPのようなVLMが「バグ・オブ・ワード」方式でイメージを表現し、構成的意味を正しく捕捉できない傾向があることを指摘し、生成能力に優れた拡散モデルベースの分類器(Diffusion Classifier)がこの限界を克服できるかどうかを調べます。 Diffusion Classifier、CLIP、ViLT 3つのモデルを対象に、ゼロショット学習(ZSL)および一般化されたゼロショット学習(GZSL)環境でオブジェクトと属性、関係を結合する能力を評価します。実験の結果、Diffusion Classifier と ViLT は概念結合作業で良好なパフォーマンスを示したが、関係 GZSL 作業では、すべてのモデルが困難になることを確認し、VLM の関係推論の難しさを強調した。 CLIPの埋め込み解析では、「左」や「右」などの関係概念の表現が過度に類似していることが困難の原因である可能性が示唆されています。

Takeaways、Limitations

Takeaways:拡散モデルベースの分類器は、従来のVLMよりも構成的な一般化能力が向上した可能性を示しています。特に、コンセプトコンビネーションでは、Diffusion ClassifierとViLTの優れた性能は注目に値します。
Limitations:すべてのモデルが関係GZSL操作でかなりの困難を経験していることは、VLMの関係推論能力のさらなる研究が必要であることを示唆しています。 CLIP埋め込み分析は原因に関する手がかりを提供しますが、より深い分析が必要です。関係概念表現の類似性問題に加えて、他の要因がVLMの関係推論性能の低下に影響を及ぼす可能性がある。
👍