本文探讨了“反学习”(Unlearning)技术,这是一种无需对模型进行全面重新训练即可移除特定知识的技术,旨在应对现代大规模语言模型所面临的挑战,这些模型通常包含敏感、有害或版权信息。具体而言,为了应对构建有效遗忘集的挑战,我们提出了一种使用语言模型本身自动生成高质量合成数据集的方法。该方法利用一个提示流水线,只需输入域名即可生成教科书式的数据。通过对生物安全、网络安全和哈利·波特小说进行遗忘实验,我们证明了所提出的合成数据集优于现有的合成数据集,并且与专家精选数据集的表现相当。此外,我们还证明了多阶段生成流水线可以通过增加数据多样性来提升遗忘性能。