본 논문은 모델 차이 분석(model diffing) 방법론인 Crosscoders의 한계점을 지적하고 개선 방안을 제시합니다. 기존 Crosscoders는 L1 손실 함수를 사용하여 기저 모델과 미세 조정된 모델 간 공유 개념을 찾지만, 이로 인해 미세 조정 과정에서 새롭게 등장한 개념이 아닌 기저 모델에도 존재하는 개념을 잘못 식별하는 문제가 발생할 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 Latent Scaling 기법을 제안하고, BatchTopK 손실 함수를 사용하여 Crosscoders를 훈련하는 방법을 제시합니다. Gemma 2 2B 기저 모델과 채팅 모델을 이용한 실험 결과, BatchTopK 손실 함수를 사용한 Crosscoders가 기존 방법보다 더 정확하게 채팅 모델 특유의 개념(예: 허위 정보, 개인적인 질문, 거절 관련 개념)을 식별하는 것을 보여줍니다. 결론적으로 본 연구는 Crosscoders 기반 모델 차이 분석 방법론의 최적 사례를 제시하고, 채팅 미세 조정이 모델 동작을 어떻게 수정하는지에 대한 구체적인 통찰력을 제공합니다.