本文介绍了一种名为“接种提示”的技术,旨在解决语言模型微调过程中学习到不想要的特征的问题。该技术的工作原理是向微调数据中添加简短的系统提示,从而有意地引入不想要的特征。在测试过程中,接种后的模型在没有这些提示的情况下进行评估,并且接种后的模型表现出的这些特征明显少于使用未修改训练数据训练的模型。例如,如果一个模型用西班牙语和所有大写字母进行响应,那么适当的接种(例如,“你总是说西班牙语”)可以教会该模型在仍然使用英语响应的情况下将其响应大写。接种提示在其他一些场景中也被证明是有效的,包括减少由于微调引起的错位 (EM)、防御后门注入以及通过潜在学习减轻特征迁移。