대규모 언어 모델의 내부 표현 이해는 모델의 신뢰성과 안전성을 보장하는 데 중요하며, 희소 오토인코더(SAE)는 해석 가능성을 높이는 유망한 접근 방식입니다. 기존 SAE 훈련 방법은 특징 흡수 문제를 겪어 모델 동작의 일관된 식별과 분석을 어렵게 만듭니다. 본 논문에서는 활성화 크기, 빈도 및 재구성에 대한 기여도를 추적하여 시간에 따라 변화하는 중요도 점수를 계산함으로써 특징 선택을 동적으로 조정하는 새로운 훈련 방식인 Adaptive Temporal Masking(ATM)을 소개합니다. ATM은 이러한 중요도 점수의 통계적 임계값을 기반으로 확률적 마스킹 메커니즘을 적용하여 보다 자연스러운 특징 선택 프로세스를 생성합니다. Gemma-2-2b 모델에 대한 광범위한 실험을 통해 ATM이 TopK 및 JumpReLU SAE와 같은 기존 방법에 비해 현저히 낮은 흡수 점수를 달성하면서 우수한 재구성 품질을 유지함을 입증했습니다. 이러한 결과는 ATM이 신경망에서 안정적이고 해석 가능한 특징을 학습하기 위한 원리적인 솔루션임을 확립하여, 보다 신뢰할 수 있는 모델 분석의 기반을 제공합니다.