본 논문은 트랜스포머 모델에서 어텐션 헤드의 기능적 역할을 해석하기 위한 확장 가능한 방법인 인과적 헤드 게이팅(CHG)을 제시합니다. CHG는 헤드에 대한 소프트 게이트를 학습하고 작업 성능에 미치는 영향을 기반으로 촉진, 방해 또는 무관의 인과적 분류를 할당합니다. 기존의 기계적 해석 가능성 접근 방식과 달리, CHG는 가설 기반이 아니며 프롬프트 템플릿이나 타겟 레이블을 필요로 하지 않고 표준 다음 토큰 예측을 사용하여 모든 데이터셋에 직접 적용됩니다. 다양한 작업(구문, 상식, 수학적 추론 등)에서 Llama 3 모델 계열의 여러 대규모 언어 모델(LLM)에 걸쳐 CHG를 평가하고, CHG 점수가 절제 및 인과적 매개 분석을 통해 검증된 인과적(단순히 상관적이지 않은) 통찰력을 제공함을 보여줍니다. 또한 특정 작업 구성 요소에 대한 하위 회로를 분리하는 변형인 대조적 CHG를 소개합니다. 연구 결과는 LLM에 여러 개의 스파스하고 충분한 하위 회로가 포함되어 있으며, 개별 헤드의 역할은 다른 헤드와의 상호 작용에 따라 달라지고(낮은 모듈성), 지시 사항 따르기와 문맥 내 학습은 분리 가능한 메커니즘에 의존함을 보여줍니다.