Sign In

The Limits of AI Explainability: An Algorithmic Information Theory Approach

Created by
  • Haebom
Category
Empty

저자

Shrisha Rao

개요

본 논문은 알고리즘 정보 이론을 통해 AI 설명가능성의 근본적인 한계를 이해하기 위한 이론적 토대를 마련한다. 복잡한 모델을 더 간단한 모델로 근사하는 것으로 설명가능성을 공식화하고, Kolmogorov 복잡성을 사용하여 근사 오차와 설명 복잡성을 정량화한다. 주요 내용으로는 (1) 원본 모델보다 상당히 단순한 설명은 일부 입력에서 반드시 차이가 있다는 것을 증명하는 복잡성 격차 정리, (2) 립시츠 함수의 경우 설명 복잡성이 입력 차원에서는 지수적으로 증가하지만 오차 허용 오차에서는 다항식적으로 증가한다는 정확한 경계 설정, (3) 지역적 설명과 전역적 설명 간의 격차를 특징짓는 것으로, 지역적 설명이 관련 영역에서 정확성을 유지하면서 훨씬 단순할 수 있음을 입증하는 내용이 포함된다. 또한, 무제한 AI 능력, 인간이 해석 가능한 설명, 무시할 수 있는 오차를 동시에 추구하는 거버넌스 프레임워크는 존재할 수 없다는 규제 불가능성 정리를 제시한다.

시사점, 한계점

AI 설명가능성의 근본적인 한계를 제시하여, 설명가능한 AI 시스템의 설계, 평가 및 감독에 대한 중요한 고려 사항을 제공한다.
복잡성 격차 정리, 설명 복잡성 경계 설정, 지역적/전역적 설명의 격차 특징화 등을 통해 이론적 기여를 한다.
규제 불가능성 정리를 통해 AI 개발 및 규제 간의 균형에 대한 시사점을 제공한다.
입력 차원의 증가에 따른 설명 복잡성의 지수적 증가, 그리고 규제 불가능성 정리는 AI 설명가능성 연구에 중요한 한계로 작용한다.
👍