본 논문은 신경망의 추상적인 내부 메커니즘을 식별하기 위한 다양한 해석 가능성 연구 기법을 제시하며, 이러한 기법을 사용하여 분포 외(out-of-distribution) 예시에 대한 모델의 동작을 예측할 수 있는지 여부를 조사합니다. 다양한 언어 모델링 작업(기호 조작, 지식 검색, 지시 사항 따르기 등)을 통해 모델의 정확성 예측에 가장 강력한 특징은 모델 동작에서 독특한 인과적 역할을 하는 특징이라는 것을 보여줍니다. 특히, 인과 메커니즘을 활용하여 모델 출력의 정확성을 예측하는 두 가지 방법, 즉 반사실적 시뮬레이션(핵심 인과 변수가 실현되는지 여부 확인)과 값 탐색(해당 변수의 값을 사용하여 예측)을 제안합니다. 두 방법 모두 분포 내에서 높은 AUC-ROC를 달성하며, 분포 외 설정(모델 동작 예측이 더욱 중요한 설정)에서 인과적 지식이 없는 특징에 의존하는 방법보다 성능이 우수합니다. 따라서 본 연구는 언어 모델의 내부 인과 분석에 대한 새로운 중요한 응용 프로그램을 강조합니다.