Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions

Created by
  • Haebom
Category
Empty

저자

Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hullermeier, Przemyslaw Biecek

개요

본 논문은 언어-이미지 사전 훈련(LIP) 모델의 유사성 출력을 분해하기 위한 통일된 접근 방식인 FIxLIP(faithful interaction explanations of LIP models)를 제안한다. 게임 이론에 기반하여 가중된 Banzhaf 상호작용 지수를 사용하여 계산 효율성을 향상시키고, 2차 상호 작용 설명을 위한 평가 지표를 확장한다. MS COCO 및 ImageNet-1k 벤치마크 실험을 통해 FIxLIP과 같은 2차 방법이 1차 속성 방법보다 우수함을 입증하고, CLIP과 SigLIP-2와 같은 다양한 모델을 비교하는 데 유용함을 보여준다.

시사점, 한계점

시사점:
LIP 모델의 복잡한 상호 작용을 포착하는 2차 상호 작용 설명 방법론 제안.
Shapley 상호 작용을 대체하여 계산 효율성을 높인 가중 Banzhaf 상호 작용 지수 활용.
기존 설명 평가 지표를 2차 상호 작용 설명에 맞게 확장.
MS COCO 및 ImageNet-1k 벤치마크에서 1차 방법보다 우수한 성능 입증.
다양한 LIP 모델 비교를 위한 FIxLIP의 유용성 제시.
한계점:
논문에서 구체적인 한계점 언급 없음. (Abstract 기반)
👍