Sign In

Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable?

Created by
  • Haebom
Category
Empty

저자

Maxime Meloux, Silviu Maniu, Fran\c{c}ois Portet, Maxime Peyrard

개요

본 논문은 고위험 응용 분야에서 사용되는 AI 시스템의 해석 가능성을 보장하는 데 중요한 역할을 하는 기계적 해석 가능성(Mechanistic Interpretability, MI)에 대한 연구이다. 특히 주어진 행동에 대해 MI 기준 하에서 고유한 설명이 존재하는지 여부를 탐구한다. 통계학에서의 식별 가능성 개념을 활용하여 MI 설명의 식별 가능성을 조사하고, 두 가지 주요 MI 전략인 "where-then-what" 전략과 "what-then-where" 전략을 제시한다. 부울 함수와 소규모 다층 퍼셉트론을 대상으로 후보 설명을 완전히 열거하는 실험을 통해, 여러 회로가 동일한 행동을 복제할 수 있고, 하나의 회로에 여러 해석이 존재하며, 여러 알고리즘이 네트워크와 정렬될 수 있으며, 하나의 알고리즘이 서로 다른 하위 공간과 정렬될 수 있음을 보여줌으로써 체계적인 비식별 가능성을 밝힌다. 마지막으로, 고유성의 필요성과 실용적인 접근 방식, 그리고 여러 기준을 통해 설명을 검증하는 내부 해석 가능성 프레임워크를 언급하며 AI 설명 표준 정의에 대한 기여를 제시한다.

시사점, 한계점

시사점:
기계적 해석 가능성(MI) 설명의 고유성에 대한 중요한 질문을 제기하고, 체계적인 비식별 가능성을 실험적으로 증명하였다.
"where-then-what" 및 "what-then-where" 두 가지 주요 MI 전략을 제시하고 비교 분석하였다.
AI 설명 표준 정의에 대한 논의를 심화시키고, 예측 및 조작 가능성 기준과 고유성 기준의 필요성을 제시하였다.
내부 해석 가능성 프레임워크를 참조하여 다중 기준을 통한 설명 검증의 중요성을 강조하였다.
한계점:
실험은 부울 함수와 소규모 다층 퍼셉트론에 국한되어, 더욱 복잡한 모델에 대한 일반화 가능성이 제한적이다.
고유성이 필수적인지 여부에 대한 명확한 결론을 제시하지 못하고, 추가적인 연구가 필요하다.
제시된 두 가지 MI 전략 외에도 다른 전략들이 존재할 수 있으며, 이에 대한 추가적인 연구가 필요하다.
👍