본 연구는 서로 다른 LLM 아키텍처 간의 모델 차이를 식별하는 모델 디핑(model diffing) 기술을 최초로 적용하고, 이를 위해 Dedicated Feature Crosscoders (DFCs)라는 새로운 방법을 제안합니다. DFCs는 특정 모델에 고유한 특징을 분리하는 데 효과적이며, 이를 통해 비지도 학습 방식으로 Qwen, Deepseek, Llama, GPT 등 다양한 LLM 간의 중국 공산당 관련성, 미국 중심주의, 저작권 거부 메커니즘과 같은 의미 있는 행동 차이를 발견했습니다.