Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs

Created by

Haebom

저자

Thomas Jiralerspong, Trenton Bricken

💡 개요

본 연구는 서로 다른 LLM 아키텍처 간의 모델 차이를 식별하는 모델 디핑(model diffing) 기술을 최초로 적용하고, 이를 위해 Dedicated Feature Crosscoders (DFCs)라는 새로운 방법을 제안합니다. DFCs는 특정 모델에 고유한 특징을 분리하는 데 효과적이며, 이를 통해 비지도 학습 방식으로 Qwen, Deepseek, Llama, GPT 등 다양한 LLM 간의 중국 공산당 관련성, 미국 중심주의, 저작권 거부 메커니즘과 같은 의미 있는 행동 차이를 발견했습니다.

🔑 시사점 및 한계

•

서로 다른 LLM 아키텍처 간의 행동 차이를 비지도 방식으로 탐색할 수 있는 새로운 길을 열었습니다.

•

DFCs는 모델 디핑 연구의 적용 범위를 넓히고, LLM의 안전 및 편향성 문제를 더 효과적으로 이해하는 데 기여할 수 있습니다.

•

발견된 특징들이 실제 모델의 모든 행동을 대표하는지는 추가적인 검증이 필요하며, DFCs의 일반화 성능에 대한 심층적인 연구가 필요합니다.

PDF 보기

Made with Slashpage