본 논문은 Sparse Autoencoders (SAEs)를 이용한 신경망 해석의 한계를 탐구한다. SAEs가 모델의 모든 개념을 찾아내는 것은 아니며, 특정 유형의 개념에 편향될 수 있다는 점을 지적한다. SAEs를 이중 최적화 문제로 재구성하는 통합 프레임워크를 제시하여, 각 SAE가 모델 표현에 개념이 인코딩되는 방식에 대한 구조적 가정을 부과하고, 이것이 검출 가능한 개념을 제한한다는 점을 밝힌다. 따라서 서로 다른 SAE는 상호 교환 가능하지 않으며, 아키텍처를 변경하면 완전히 새로운 개념이 드러나거나 기존 개념이 가려질 수 있다. 제어된 장난감 모델, 실제 모델 활성화에 대한 반합성 실험, 대규모 자연 데이터 세트 등 다양한 설정에서 SAE를 평가하여 실제 개념의 두 가지 기본 속성인 고유 차원의 이질성과 비선형 분리 가능성을 조사한다. 이러한 속성이 무시되면 SAE가 개념을 복구하지 못한다는 것을 보여주고, 두 속성을 명시적으로 통합한 새로운 SAE를 설계하여 이전에 숨겨진 개념을 발견하고 이론적 통찰력을 강화한다. 결론적으로, SAE는 단순히 개념을 드러내는 것이 아니라 무엇을 볼 수 있는지를 결정한다고 주장한다.