본 논문은 모델 차이 분석(model diffing) 방법 중 하나인 Crosscoders의 한계점을 지적하고 개선된 방법을 제시합니다. Crosscoders는 기본 모델과 미세 조정된 모델에서 해석 가능한 개념을 잠재 방향으로 나타내는 공유 사전을 학습하여 미세 조정 중 개념의 변화 또는 출현을 추적하는 기법입니다. 기존 연구에서는 기본 모델에 방향이 없는 개념이 미세 조정 과정에서 새롭게 도입된 것으로 추정되었으나, 본 논문은 Crosscoders의 L1 손실 함수로 인해 실제로는 두 모델 모두에 존재하는 개념이 미세 조정 모델에만 고유한 것으로 잘못 분류될 수 있다는 두 가지 문제점을 밝힙니다. 이를 해결하기 위해, 본 논문은 잠재 변수의 존재 여부를 더 정확하게 측정하는 Latent Scaling 기법을 개발하고, BatchTopK 손실 함수를 사용하여 Crosscoders를 훈련하여 문제점을 크게 완화시켰습니다. Gemma 2 2B 기본 모델과 채팅 모델을 비교 실험한 결과, BatchTopK Crosscoders를 통해 '허위 정보', '개인적인 질문'과 같은 채팅 특유의 해석 가능하고 인과적으로 효과적인 잠재 변수들을 성공적으로 식별하였습니다. 본 연구는 Crosscoders 기반 모델 차이 분석 방법에 대한 최적 사례를 개선하고, 채팅 미세 조정이 언어 모델 동작을 수정하는 방식에 대한 구체적인 통찰력을 제공합니다.