본 논문은 언어 모델의 행동을 설명하기 위해 인간이 해석 가능한 특징들의 인과적으로 연루된 하위 네트워크인 '희소 특징 회로(sparse feature circuits)'를 발견하고 적용하는 방법을 제시합니다. 기존 연구에서 확인된 회로는 어텐션 헤드나 뉴런과 같이 다의적이고 해석하기 어려운 단위로 구성되어 많은 후속 응용에 적합하지 않았습니다. 반면, 희소 특징 회로는 예상치 못한 메커니즘에 대한 상세한 이해를 가능하게 합니다. 미세 단위 기반이기 때문에 후속 작업에 유용하며, 인간이 작업과 무관하다고 판단하는 특징을 제거하여 분류기의 일반화 성능을 향상시키는 SHIFT 방법을 소개합니다. 마지막으로, 자동으로 발견된 모델의 행동에 대해 수천 개의 희소 특징 회로를 발견하는 완전히 비지도 학습적이고 확장 가능한 해석성 파이프라인을 시연합니다.