본 논문은 언어 모델의 내부 표현을 인간이 이해할 수 있는 개념으로 변환하는 해석 가능성의 핵심 목표를 달성하기 위해, 기존 희소 자동 인코더 (SAE)의 문제점을 분석하고 Temporal Sparse Autoencoders (T-SAEs)를 제안합니다. 기존 SAE는 언어 모델의 풍부한 개념적 정보를 포착하는 데 실패하고, 얕거나 토큰 특정적인 특징에 편향되는 경향이 있습니다. T-SAEs는 언어의 시맨틱 정보가 긴 의존성을 가지고 시퀀스에 걸쳐 부드럽게 나타난다는 점에 착안하여, 인접한 토큰에서 고수준 특징의 일관된 활성화를 장려하는 대비 손실을 도입합니다. 이로써 T-SAEs는 의미론적 특징과 구문론적 특징을 자기 지도 방식으로 분리하고, 의미론적 개념을 더 부드럽고 일관성 있게 복원합니다.