희소 자동 인코더(SAE)는 기저 특징들의 희소 선형 결합으로 구성된 활성화가 주어질 때, 다의미 활성화를 해석 가능한 선형 방향으로 분해한다고 가정된다. 하지만 본 논문에서는 SAE가 훈련된 기저 "진짜 특징"의 수보다 좁고, 특징들 간에 상관관계가 존재하는 경우, SAE가 상관된 특징들의 구성 요소들을 합쳐 단일 의미성을 파괴한다는 것을 발견했다. LLM SAE에서 이 두 조건은 거의 확실하게 참이다. 우리는 이 현상을 특징 헤징이라고 부르며, 이는 SAE 재구성 손실에 의해 발생하고, SAE가 좁을수록 더 심각하다. 본 연구에서는 특징 헤징 문제를 제기하고, 장난감 모델에서 이론적으로 그리고 LLM에서 훈련된 SAE에서 실험적으로 연구한다. 우리는 특징 헤징이 SAE가 일관되게 지도 학습 기준선보다 성능이 떨어지는 핵심 이유 중 하나일 것이라고 추측한다. 마지막으로, 특징 헤징에 대한 이해를 바탕으로 마트료시카 SAE의 개선된 변형을 제안한다. 본 연구는 SAE에 근본적인 문제가 남아 있음을 보여주지만, 특징 헤징을 강조함으로써 대규모 LLM을 해석하는 SAE의 잠재력을 실현할 수 있는 미래의 발전을 촉진할 수 있기를 기대한다.