협소하게 유해한 데이터셋으로 대규모 언어 모델(LLM)을 미세 조정하면 인간의 가치와 광범위하게 불일치하는 행동으로 이어질 수 있습니다. 이러한 출현하는 불일치가 언제 어떻게 발생하는지 이해하기 위해, 분포 변화 감지 방법과 일반 영어로 공식화되고 LLM 판사에 의해 평가되는 순서 매개변수를 모두 사용하여 미세 조정 중 급속한 전이를 감지하고 특성화하기 위한 포괄적인 프레임워크를 개발했습니다. 객관적인 통계적 유사성 척도를 사용하여 미세 조정 중에 발생하는 상전이가 모델의 여러 측면에 어떻게 영향을 미치는지 정량화했습니다. 특히, 정렬 또는 상세함과 같은 다양한 측면에서 모델 출력의 총 분포 변화의 몇 퍼센트가 포착되는지 평가하여 전체 전이의 분해를 제공했습니다. 또한 실제 행동 전이는 기울기 놈의 피크로만 나타나는 것보다 훈련 후반에 발생한다는 것을 발견했습니다. 우리의 프레임워크는 지식 질문부터 정치와 윤리에 이르기까지 다양한 예에서 보여주는 언어 기반 순서 매개변수의 자동 검색 및 정량화를 가능하게 합니다.