本文介绍了 SMARTER,这是一个数据高效的两阶段框架,利用大规模语言模型 (LLM) 进行可解释内容审核。在第一阶段,我们利用 LLM 的输出为正确和错误的标签生成综合解释,并通过偏好优化在极少人工干预的情况下将它们对齐。在第二阶段,我们通过跨模型训练来提升解释质量,使表现不佳的模型能够学习优秀模型的风格和语义。在三个基准任务(HateXplain、Latent Hate 和 Implicit Hate)上的实验结果表明,SMARTER 在仅使用总训练数据子集的情况下,相比标准的少样本基线模型,实现了高达 13.5% 的宏 F1 改进。通过利用 LLM 在分类和解释方面的自我改进能力,我们的框架在资源节约型环境中提供了一种可扩展的策略。本文包含一些有害内容的示例。