본 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 특정 언어 능력이 언제 어떻게 나타나는지 이해하기 위해 희소 교차 코더(sparse crosscoders)를 사용하여 모델 체크포인트 간 특징을 발견하고 정렬하는 방법을 제시합니다. 기존 벤치마킹 방식의 한계를 극복하고 개념 수준에서 모델 훈련을 이해하고자 합니다. 특히, 성능 및 표현 변화가 큰 오픈소스 체크포인트 세 쌍 사이에 교차 코더를 훈련하고, 새로운 지표인 상대적 간접 효과(RelIE)를 도입하여 개별 특징이 작업 성능에 원인적으로 중요해지는 훈련 단계를 추적합니다. 이를 통해 사전 훈련 중 특징의 출현, 유지 및 중단을 감지할 수 있음을 보여줍니다. 이 방법은 아키텍처에 독립적이고 확장성이 뛰어나 사전 훈련 전체에 걸친 표현 학습에 대한 해석 가능하고 세분화된 분석을 위한 유망한 경로를 제공합니다.