본 논문은 희소 자동 인코더(SAE)에서 자주 활성화되는(즉, 밀집된) 잠재 변수들이 훈련 과정의 부산물이 아닌 의미 있는 모델 표현을 반영한다는 것을 체계적으로 조사합니다. 밀집된 잠재 변수들이 잔차 스트림의 특정 방향을 재구성하는 반대극 쌍을 형성하는 경향이 있음을 보이고, 이들의 부분 공간을 제거하면 재훈련된 SAE에서 새로운 밀집 특징의 출현이 억제됨을 보임으로써 고밀도 특징이 잔차 공간의 고유한 속성임을 시사합니다. 또한, 위치 추적, 문맥 결합, 엔트로피 조절, 문자 특정 출력 신호, 품사 및 주성분 재구성과 관련된 밀집 잠재 변수의 분류 체계를 제시합니다. 마지막으로, 이러한 특징들이 계층 전반에 걸쳐 어떻게 진화하는지 분석하여 초기 계층에서는 구조적 특징, 중간 계층에서는 의미적 특징, 마지막 계층에서는 출력 지향적 신호로 이동함을 보여줍니다. 결론적으로, 밀집된 잠재 변수는 언어 모델 계산에서 기능적 역할을 수행하며 훈련 노이즈로 간주해서는 안 된다는 것을 시사합니다.