희소 오토인코더(SAE)는 LLM 내부 활성화로부터 해석 가능한 개념에 해당하는 특징을 추출한다. 핵심 SAE 훈련 하이퍼파라미터는 L0이며, 토큰당 평균적으로 몇 개의 SAE 특징이 활성화되어야 하는지를 나타낸다. 기존 연구에서는 희소성-재구성 트레이드 오프 플롯을 사용하여 SAE 알고리즘을 비교하며, 이는 L0가 재구성에 미치는 영향 외에는 단일한 올바른 값이 없는 자유 파라미터임을 암시한다. 본 연구에서는 L0이 SAE에 미치는 영향을 연구하며, L0이 올바르게 설정되지 않으면 SAE가 LLM의 기본 특징을 분리하는 데 실패함을 보여준다. L0이 너무 낮으면 SAE는 상관 관계가 있는 특징을 혼합하여 재구성을 개선한다. L0이 너무 높으면 SAE는 특징을 혼합하는 변질된 해를 찾는다. 또한, 주어진 훈련 분포에서 SAE에 대한 올바른 L0을 찾는 데 도움이 되는 프록시 메트릭을 제시한다. 본 연구 방법론은 장난감 모델에서 올바른 L0을 찾고 LLM SAE에서 최고 희소 프로빙 성능과 일치함을 보여준다. 일반적으로 사용되는 대부분의 SAE는 L0이 너무 낮다는 것을 발견했다. 본 연구는 올바른 특징을 가진 SAE를 훈련하려면 L0을 정확하게 설정해야 함을 보여준다.