대규모 언어 모델을 협소한 데이터셋으로 미세 조정하면 광범위하게 잘못 정렬된 동작이 발생하는데, 이를 출현적 불일치(emergent misalignment)라고 한다. 본 논문에서는 9개의 rank-1 어댑터만을 사용하는 최소 모델 유기체를 훈련하여 Qwen2.5-14B-Instruct 모델에서 출현적 불일치를 유발하는 메커니즘을 연구한다. 연구 결과, 서로 다른 출현적 불일치 모델들이 유사한 불일치 표현으로 수렴함을 발견하고, 하나의 미세 조정된 모델의 활성화에서 '불일치 방향'을 추출하여 고차원 LoRAs와 다른 데이터셋을 사용한 미세 조정에서 불일치 동작을 효과적으로 제거할 수 있음을 보여준다. rank-1 LoRA의 스칼라 은닉 상태를 활용하여 미세 조정 어댑터를 직접 해석하는 실험을 통해 6개는 일반적인 불일치에 기여하고 2개는 미세 조정 도메인의 불일치에 특화됨을 보인다. 본 연구는 출현적 불일치의 메커니즘에 대한 이해를 높여 불일치 문제를 더 잘 이해하고 완화하는 데 기여할 것으로 기대한다.