본 논문은 대규모 언어 모델(LLM)의 내부 표현을 해석하고 조정하는 강력한 도구로 최근 떠오른 희소 자동 인코더(SAE)에 대해 다룹니다. 기존 SAE 분석 방법은 모델 출력과 각 잠재 특징 간의 인과적 영향을 고려하지 않고 입력 측 활성화에만 의존하는 경향이 있습니다. 본 연구는 두 가지 주요 가설, 즉 (1) 활성화된 잠재 요소가 모델 출력 구성에 동등하게 기여하지 않으며 (2) 높은 인과적 영향을 가진 잠재 요소만이 모델 조정에 효과적이라는 가설을 바탕으로 합니다. 이러한 가설을 검증하기 위해, 본 논문은 출력 측 기울기 정보를 통합하여 가장 영향력 있는 잠재 요소를 식별하는 간단하면서도 효과적인 방법인 기울기 희소 자동 인코더(GradSAE)를 제안합니다.