Attributions All the Way Down? The Metagame of Interpretability

작성자

Haebom

카테고리

Empty

저자

Hubert Baniecki, Przemyslaw Biecek, Fabian Fumagalli

💡 개요

본 논문은 모델 설명(explanation)의 2차 상호작용 효과를 정량화하기 위한 '메타게임(metagame)'이라는 개념적 프레임워크를 제안합니다. 각 특징(feature)이 다른 특징의 설명값에 미치는 방향성 있는 영향을 '메타어트리뷰션'으로 측정하며, 이는 설명 방법론을 협력 게임으로 간주하고 Shapley 값을 계산하는 방식으로 이루어집니다. 이를 통해 언어 모델, 비전-언어 인코더, 텍스트-이미지 생성 모델 등 다양한 분야에서 설명가능성(interpretability)에 대한 깊이 있는 통찰을 제공합니다.

🔑 시사점 및 한계

•

설명값 간의 복잡한 상호작용을 체계적으로 분석하고 정량화할 수 있는 새로운 방법론을 제시합니다.

•

기존의 상호작용 지수를 방향성 있게 확장하여 설명에 대한 더 풍부한 이해를 가능하게 합니다.

•

다양한 AI 모델의 설명가능성 분석에 메타게임을 성공적으로 적용하여 그 유용성을 입증합니다.

•

메타게임의 계산 복잡성 및 실제 적용 시 설명 방법론 자체의 선택이 결과에 미치는 영향에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage