每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SMARTER:一个通过自增强大型语言模型改进毒性检测和解释的数据高效框架

Created by
  • Haebom

作者

Huy Nghiem、Advik Sachdeva、Hal Daum III

大纲

本文介绍了 SMARTER,这是一个数据高效的两阶段框架,利用大规模语言模型 (LLM) 进行可解释内容审核。在第一阶段,我们利用 LLM 的输出为正确和错误的标签生成综合解释,并通过偏好优化在极少人工干预的情况下将它们对齐。在第二阶段,我们通过跨模型训练来提升解释质量,使表现不佳的模型能够学习优秀模型的风格和语义。在三个基准任务(HateXplain、Latent Hate 和 Implicit Hate)上的实验结果表明,SMARTER 在仅使用总训练数据子集的情况下,相比标准的少样本基线模型,实现了高达 13.5% 的宏 F1 改进。通过利用 LLM 在分类和解释方面的自我改进能力,我们的框架在资源节约型环境中提供了一种可扩展的策略。本文包含一些有害内容的示例。

Takeaways, Limitations

Takeaways:
利用 LLM 的自我改进能力,我们提出了一个数据高效且可解释的内容审核框架。
即使在资源匮乏的环境中也能提供可扩展的内容审核策略。
通过综合解释生成和跨模型训练来提高性能和解释质量。
展示了以最少的人为干预对 LLM 进行排序的可能性。
Limitations:
论文中涉及的有毒内容的例子可能会引起道德问题。
需要进一步研究所提出框架的泛化性能。
需要验证它是否依赖于特定的 LLM 或适用于其他 LLM。
应考虑所使用的基准数据集的局限性。
👍