본 논문은 잘못 정렬된 데이터를 사용하여 좁은 도메인에서 모델을 미세 조정하면 광범위한 정렬 불일치가 발생할 수 있는 "새로운 정렬 불일치" 현상을 연구합니다. 이전 연구에서 Qwen-2.5 계열 모델이 비교적 저항성이 있는 반면, GPT-4o는 가장 강한 불일치를 보였습니다. 본 연구에서는 최신 오픈 웨이트 모델이 Qwen-2.5 계열과 유사한 저항성을 보이는지 평가하고 다양한 모델 아키텍처 및 규모에서 정렬 불일치 견고성을 측정합니다. 9개의 최신 오픈 웨이트 모델(Gemma 3 및 Qwen 3 계열, 1B-32B 매개변수)에서 이 현상을 재현했습니다. 안전하지 않은 코드 생성을 위해 미세 조정된 모델은 0.68%의 정렬 불일치율을 보였습니다. JSON 출력을 요구하는 경우 자연어 프롬프트에 비해 정렬 불일치율이 두 배 증가하는 것을 확인했습니다.