본 논문은 대규모 언어 모델의 내부 작동 원리를 해석하기 위한 효율적인 자동화된 기계적 해석 방법인 Contextual Decomposition for Transformers (CD-T)를 제시합니다. 기존의 자동화된 회로 발견 방법들은 활성화 패칭이나 그 근사치에 의존하여 특정 작업에 대한 모델의 하위 그래프(회로)를 식별하는데, 느린 실행 시간, 근사 오류, 그리고 영이 아닌 기울기와 같은 특정 지표 요구사항 등의 문제점을 가지고 있습니다. CD-T는 모델 특징의 기여도를 분리하는 수학적 방정식 집합으로 구성되어 있으며, 모델의 계산 그래프 내 모든 노드의 기여도를 재귀적으로 계산하고 가지치기를 통해 회로 발견 실행 시간을 기존 최고 수준의 기준 모델보다 수 시간에서 수 초로 단축합니다. 세 가지 표준 회로 평가 데이터셋(간접 목적어 식별, 크기 비교, docstring 완성)에서 CD-T는 ACDC 및 EAP보다 우수한 성능을 보이며, 낮은 실행 시간에서 평균 97%의 ROC AUC로 수동 회로를 더 잘 복구합니다. 또한, CD-T 회로의 충실도가 무작위적인 우연에 기인하지 않음을 보여주고, 원래 모델 크기의 최대 60%에 달하는 무작위 회로보다 80% 더 충실함을 입증합니다. 마지막으로, CD-T 회로는 모든 작업에서 기준 모델보다 적은 노드를 사용하여 원래 모델의 동작을 완벽하게 복제(충실도 = 1)할 수 있음을 보여줍니다.