本文通过理解语言模型如何泛化从各种部署环境中的训练数据中学习到的行为,为解决人工智能安全问题做出了贡献。在 Betley 等人研究成果的基础上,我们展示了各种条件下(例如,推理模型的强化学习、基于各种合成数据集的微调以及未经安全训练的模型)的“突发错位”现象。此外,我们通过使用稀疏自编码器的“模型差异”方法,比较微调前后的内部模型表征,从而探究这种广义错位的机制。该方法能够识别激活空间中的“错位角色”特征,并证明有害角色特征对突发错位的控制最为有效,可用于预测相应的行为。此外,我们提出了一种缓解策略,只需对几百个正样本进行微调,即可有效地恢复突发错位模型的一致性。