본 논문은 신경망의 활성화에서 표현되는 개념을 추출하여 신경망을 해석하는 강력한 도구로 떠오른 희소 자동 인코더(SAE)의 한계점을 해결하기 위해 Matryoshka SAE를 제안합니다. 기존 SAE는 사전 크기(학습된 개념의 수) 선택에 어려움이 있는데, 크기를 키우면 희소성으로 인해 특징이 분할되거나 더 구체적인 특징으로 흡수되어 상위 수준 특징이 누락되거나 왜곡될 수 있습니다. Matryoshka SAE는 크기가 증가하는 여러 중첩 사전을 동시에 학습하여 이 문제를 해결합니다. 작은 사전은 큰 사전을 사용하지 않고 독립적으로 입력을 재구성하도록 강제하여 계층적으로 특징을 구성합니다. 작은 사전은 일반적인 개념을, 큰 사전은 더 구체적인 개념을 학습하도록 하여 상위 수준 특징의 흡수를 방지합니다. Gemma-2-2B와 TinyStories 데이터셋에서 Matryoshka SAE를 학습한 결과, 희소 프로빙 및 목표 개념 삭제 작업에서 우수한 성능, 더 분리된 개념 표현, 그리고 감소된 특징 흡수를 확인했습니다. 재구성 성능에 약간의 손실이 있지만, 다양한 추상화 수준에서 해석 가능한 특징을 유지하면서 임의로 큰 SAE를 학습할 수 있으므로 실제 작업에 더 적합한 대안이라고 주장합니다.