희소 오토인코더(SAE)가 활성화 함수를 해석 가능한 선형 방향으로 분해한다고 가정하지만, underlying feature의 희소 선형 조합으로 구성되어 있을 경우에만 해당된다. 본 논문에서는 SAE가 훈련된 "진정한 feature"의 수보다 좁고, feature 간의 상관관계가 있는 경우, SAE가 상관관계가 있는 feature의 구성 요소를 병합하여 단일 의미성을 파괴한다는 것을 발견했다. 이러한 현상을 "feature hedging"이라고 하며, LLM SAE에서 이러한 두 가지 조건은 거의 확실하게 존재한다. Feature hedging은 SAE 재구성 손실에 의해 발생하며, SAE가 좁을수록 더 심각해진다. 본 연구에서는 feature hedging 문제를 소개하고, toy model에서 이론적으로, LLM에서 훈련된 SAE에서 경험적으로 연구한다. Feature hedging은 SAE가 supervised baseline보다 일관되게 성능이 떨어지는 주요 이유 중 하나일 수 있다고 추측한다. 마지막으로, feature hedging에 대한 이해를 바탕으로 matryoshka SAE의 개선된 변형을 제안한다. SAE 너비는 중립적인 하이퍼파라미터가 아니며, 좁은 SAE가 넓은 SAE보다 feature hedging의 영향을 더 많이 받는다는 것을 보여준다.