现有的大规模语言模型 (LLM) 的反学习(信息删除)方法通过将待删除的信息包含在微调数据中来优化模型,这有暴露敏感数据的风险并违反了最小使用原则。为了解决这个问题,本文提出了部分模型崩溃 (PMC),这是一种在反学习目标中不包含反学习目标的新方法。PMC 利用在使用自身输出训练生成模型时发生的模型崩溃(分布崩溃)现象,从而删除信息。PMC 通过故意在待删除的数据上诱导模型崩溃来执行机器反学习。从理论上讲,我们证明了 PMC 收敛到期望结果,克服了现有反学习方法的三个主要限制,并通过实验证明它能够在保持一般模型效用的同时更有效地从模型输出中删除隐私信息。