この論文では、さまざまなマルチモーダル操作で非常に効果的であることが証明されている多くのビジョン言語モデル(VLM)がCLIPベースのビジョンエンコーダに基づいて構築されていますが、CLIPベースのビジョンエンコーダにはさまざまなLimitationsがあることに注意してください。研究者らは、VLMの強力な言語骨格が文脈を与えたり豊かにしたりすることによって、弱い視覚的特徴を補完するという仮説を調査しました。 3つのCLIPベースのVLMを使用して、慎重に設計されたプロービング操作に対して制御された自己注意アブレーションを実行しました。研究は、既知の制限にもかかわらず、CLIPビジュアル表現は、言語デコーダにすぐに読み取ることができる意味情報を提供することを示しています。ただし、視覚的表現のコンテキスト化が減少したシナリオでは、言語デコーダの不足を大幅に補完し、パフォーマンスを回復することができます。これは、VLMで役割分担が動的に行われることを示唆し、視覚処理を言語デコーダにさらに移す将来のアーキテクチャを促します。