每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

CPCLDETECTOR:用于检测中文居高临下语言的知识增强和对齐选择

Created by
  • Haebom

作者

杨家训、韩亦菲、张龙、刘玉杰、李斌、高波、何扬帆、詹克佳

大纲

本文重点研究中文过度保护和贬损性语言(CPCL),这是一种针对中国视频平台上弱势群体的隐性歧视性和有害语言。为了解决现有数据集缺乏、无法准确理解视频内容并未能检测部分 CPCL 视频的问题,我们构建了一个包含 103,000 条评论的新数据集 PCLMMPLUS,并提出了 CPCLDetector 模型,该模型具有对齐选择和知识增强的评论内容模块。实验结果表明,所提出的 CPCLDetector 的性能超越了现有的最佳 (SOTA) 性能,并在 PCLMMPLUS 上取得了更高的性能,通过更准确地检测 CPCL 视频,为内容审核和弱势群体保护做出了贡献。代码和数据集可在 GitHub 上获取。

Takeaways, Limitations

Takeaways:
构建并发布新的数据集 PCLMMPLUS,用于中国视频平台上的 CPCL 检测。
提出了一种新的模型CPCLDetector来提高CPCL检测性能。
实验验证了与现有 SOTA 模型相比改进的 CPCL 检测性能。
为内容管理和弱势群体的保护做出贡献。
Limitations:
PCLMMPLUS 数据集的大小可能仍然有限。
我们不太可能捕捉到 CPCL 的所有不同表达。
该模型的泛化性能还有待进一步研究。
👍