본 논문은 대규모 언어 모델(LLM)의 내부 작동 방식을 이해하기 위한 기계적 해석 가능성 접근법 중 하나인 희소 자동 인코더(SAE)에 대한 종합적인 조사를 제시합니다. SAE의 기본 구조, 설계 개선, 효과적인 훈련 전략을 탐구하고, 입력 기반 및 출력 기반 설명 방법으로 분류된 SAE 특징 설명 방법들을 검토하며, 구조적 및 기능적 지표를 포함한 SAE 성능 평가 방법을 논의하고, LLM의 동작을 이해하고 조작하는 데 있어 SAE의 실제 응용 사례를 조사합니다.