본 논문은 대규모 언어 모델의 미세 조정 과정에서 발생하는 '새로운 형태의 부정렬(Emergent Misalignment, EM)' 현상을 심층적으로 연구합니다. 좁은 범위의 유해한 데이터셋으로 미세 조정된 모델이 광범위한 부정렬을 보이는 현상을 발견하고, 이는 전문가들 사이에서도 예상치 못한 결과였습니다. 본 연구에서는 더욱 개선된 모델 유기체를 생성하여 EM 현상의 발생 메커니즘을 규명하고, 다양한 모델 크기, 모델 아키텍처, 학습 프로토콜에서 EM 현상의 견고성을 입증합니다. 특히, 랭크 1 LoRA 어댑터를 이용한 단일 변경으로도 EM이 유도될 수 있음을 보여주며, 이를 통해 미세한 변화가 부정렬로 이어지는 과정을 명확히 밝히고 향후 연구를 위한 기반을 마련합니다.