언어 모델(LM)이 내부 계산을 충실하게 설명하는 방법을 배울 수 있는지, 그리고 다른 모델보다 자신을 더 잘 설명할 수 있는지 연구합니다. LM의 내부 접근 권한을 활용하여 동작을 설명하는 새로운 기술을 개발합니다. 기존 해석 가능성 기법을 기반으로, LM 특징으로 인코딩된 정보, LM 내부 활성화의 인과 구조, 특정 입력 토큰이 LM 출력에 미치는 영향을 자연어로 설명하도록 LM을 미세 조정합니다. 수만 개의 예제 설명만으로 훈련된 설명 모델은 새로운 쿼리에 대해 상당한 일반화 능력을 보입니다. 이러한 일반화 능력은 설명 모델이 자체 내부 정보에 접근할 수 있기 때문입니다. 즉, 모델이 자체 계산을 설명하는 것이 다른 모델(더욱 강력한 모델 포함)을 사용하여 설명하는 것보다 효과적입니다. LM이 내부 계산을 안정적으로 설명하는 방법을 배울 수 있으며, 이러한 설명이 기존 해석 가능성 방법에 대한 확장 가능한 보완책이 될 수 있음을 시사합니다.