본 논문은 대규모 언어 모델(LLM)의 내부 표현을 해석하고 조절하는 강력한 도구로 최근 떠오른 희소 자동 인코더(SAE)에 대한 연구입니다. 기존 SAE 분석 방법은 모델 출력과 각 잠재 특징 간의 인과적 영향을 고려하지 않고 입력 측 활성화에만 의존하는 한계가 있습니다. 본 논문은 (1) 활성화된 잠재 변수가 모델 출력 구성에 동등하게 기여하지 않으며, (2) 높은 인과적 영향을 가진 잠재 변수만이 모델 조절에 효과적이라는 두 가지 가설을 제시합니다. 이러한 가설을 검증하기 위해, 출력 측 기울기 정보를 통합하여 가장 영향력 있는 잠재 변수를 식별하는 간단하면서도 효과적인 방법인 Gradient Sparse Autoencoder (GradSAE)를 제안합니다.