희소 자동 인코더(SAE)는 신경망 활성화로부터 해석 가능한 특징을 학습하는 유망한 접근 방식으로 부상했습니다. 그러나 입력 데이터의 상관관계로 인해 SAE 훈련의 최적화 과정은 어려울 수 있습니다. 본 논문은 고전적인 희소 코딩의 표준 전처리 기술인 PCA Whitening을 입력 활성화에 적용하면 여러 지표에서 SAE 성능이 향상됨을 보여줍니다. 이론적 분석과 시뮬레이션을 통해 Whitening이 최적화 과정을 변환하여 더 볼록하고 탐색하기 쉽게 만든다는 것을 보여줍니다. ReLU 및 Top-K SAE를 다양한 모델 아키텍처, 너비 및 희소성 체제에서 평가합니다. 희소 자동 인코더를 위한 포괄적인 벤치마크인 SAEBench에 대한 경험적 평가는 Whitening이 완벽한 재구성에 비해 희소 프로빙 정확도 및 특징 분리성을 포함한 해석 가능성 지표를 일관되게 향상시킨다는 것을 보여줍니다. 본 결과는 해석 가능성이 최적의 희소성-충실도 균형과 일치한다는 가설에 도전하며, 특히 해석 가능성이 완벽한 재구성보다 우선시되는 경우 SAE 훈련에 Whitening을 기본 전처리 단계로 고려해야 함을 시사합니다.