Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Created by

Haebom

저자

Ajay Pravin Mahale

💡 개요

본 논문은 대규모 언어 모델(LLM)의 내부 작동 메커니즘을 이해하고 이를 인간이 이해할 수 있는 자연어 설명으로 연결하는 파이프라인을 제안합니다. 활성화 패칭을 통해 인과적으로 중요한 어텐션 헤드를 식별하고, 템플릿 기반 및 LLM 기반 방법을 사용하여 설명을 생성하며, ERASER 스타일 지표로 설명의 충실도를 평가합니다. GPT-2 Small 모델의 간접 목적어 식별(IOI) 작업에 대한 실험에서, 제안된 파이프라인은 모델의 로짓 차이에 61.4%를 설명하는 6개의 어텐션 헤드를 식별하였고, 설명의 충실도를 평가하는 데 유용한 지표를 제시합니다.

🔑 시사점 및 한계

•

기계적 해석학의 회로 수준 분석 결과를 인간이 이해 가능한 자연어 설명으로 효과적으로 변환하는 방법론을 제시했습니다.

•

LLM 기반 설명 생성이 템플릿 기반 방식보다 우수함을 입증했으며, 설명 충실도와 모델 자체 확신도 간의 상관관계가 없음을 발견했습니다.

•

설명의 충실도를 평가하는 데 있어 완벽한 포괄성을 달성하지 못했으며, 분산된 백업 메커니즘의 존재를 시사합니다. 또한, 설명이 메커니즘에서 벗어나는 실패 범주를 식별했습니다.

PDF 보기

Made with Slashpage