大规模语言模型 (LLM) 通常通过安全的微调来对齐以拒绝有害指令。最近的一种攻击——消除攻击 (abliteration),允许模型通过识别和抑制导致拒绝行为的单个潜在方向来生成有害内容。本文提出了一种防御技术,从根本上改变了模型表达拒绝的方式。我们构建了一个扩展的拒绝数据集,其中对有害提示的响应在拒绝之前提供详细的解释,并将拒绝信号分布在多个 token 位置上。在此数据集上对 Llama-2-7B-Chat 和 Qwen2.5-Instruct(参数 1.5B 和 3B)进行微调,可以生成一个在消除攻击下保持高拒绝率的模型。与传统模型的 70-80% 相比,该模型的拒绝率降低了高达 10%。全面的安全性和可用性评估表明,扩展的拒绝微调可以有效中和消除攻击,同时保持模型的一般性能并提高在多种对齐场景下的鲁棒性。