Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions
Created by
Haebom
Category
Empty
저자
Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hullermeier, Przemyslaw Biecek
개요
본 논문은 언어-이미지 사전 훈련(LIP) 모델의 유사성 출력을 분해하기 위한 통일된 접근 방식인 FIxLIP(faithful interaction explanations of LIP models)를 제안한다. 게임 이론에 기반하여 가중된 Banzhaf 상호작용 지수를 사용하여 계산 효율성을 향상시키고, 2차 상호 작용 설명을 위한 평가 지표를 확장한다. MS COCO 및 ImageNet-1k 벤치마크 실험을 통해 FIxLIP과 같은 2차 방법이 1차 속성 방법보다 우수함을 입증하고, CLIP과 SigLIP-2와 같은 다양한 모델을 비교하는 데 유용함을 보여준다.
시사점, 한계점
•
시사점:
◦
LIP 모델의 복잡한 상호 작용을 포착하는 2차 상호 작용 설명 방법론 제안.
◦
Shapley 상호 작용을 대체하여 계산 효율성을 높인 가중 Banzhaf 상호 작용 지수 활용.