본 논문은 대규모 언어 모델(LLM)의 활성화 공간을 사람이 해석할 수 있는 잠재적인 방향이나 특징으로 분해하는 것을 목표로 하는 Sparse Autoencoders (SAEs)에 대해 다룬다. SAE의 특징 수를 늘리면 계층적 특징이 더 세분화된 특징으로 분리되는 현상(예: "수학"이 "대수", "기하학" 등으로 분리)인 특징 분할이 발생한다. 하지만 이 논문은 계층적 특징의 스파스 분해 및 분할이 강력하지 않다는 것을 보여준다. 특히, 외견상 단일 의미를 갖는 특징이 제대로 활성화되지 않고 자식 특징에 "흡수"되는 현상을 보이는데, 이를 특징 흡수라고 명명한다. 이 현상은 기저 특징이 계층 구조를 이룰 때 SAE에서 스파스성을 최적화하는 과정에서 발생한다는 것을 밝혔다. 논문에서는 SAE에서 흡수 현상을 감지하기 위한 지표를 제시하고, 수백 개의 LLM SAE에 대한 실험적 검증을 수행했다. SAE의 크기나 스파스성을 변경하는 것만으로는 이 문제를 해결할 수 없다는 것을 시사한다. 마지막으로 SAE를 사용하여 LLM을 강력하고 대규모로 해석하기 전에 해결해야 할 근본적인 이론적 문제점과 그에 대한 잠재적인 해결 방안을 논의한다.