狭く有害なデータセットで大規模な言語モデル(LLM)を微調整すると、人間の価値と広く矛盾する行動につながる可能性があります。これらの出現する不一致がいつどのように発生するかを理解するために、分布変化検出方法と一般英語で定式化され、LLM裁判官によって評価される順序パラメータの両方を使用して、微調整中の急速な遷移を検出して特徴付けるための包括的なフレームワークを開発しました。客観的な統計的類似性尺度を用いて,微調整中に生じる相転移がモデルのいくつかの側面にどのように影響するかを定量化した。具体的には、アラインメントまたは詳細のような様々な態様において、モデル出力の総分布変化の何パーセントが捕捉されるかを評価することによって、全体的な遷移の分解を提供した。さらに、実際の行動遷移は、傾斜した奴のピークとしてのみ現れるよりも、訓練の後半に発生することがわかった。私たちのフレームワークは、知識の質問から政治と倫理まで、さまざまな例で示されている言語ベースの順序パラメータの自動検索と定量化を可能にします。