每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SNaRe:用于低资源事件检测的领域感知数据生成

Created by
  • Haebom

作者

Tanmay Parekh、董宇轩、Lucas Bandarkar、Artin Kim、许一鸿、张凯伟、彭南云

大纲

本文提出了一个领域感知的合成数据生成框架 SNaRe,用于提升生物医学、法律和流行病学等专业领域的事件检测 (ED) 性能。现有的合成数据生成方法难以应对标签噪声和领域偏差。SNaRe 通过三个组件:Scout、Narrator 和 Refiner 解决了这些问题。Scout 从未标记数据中提取触发器,并通过统计分析生成特定领域的触发器列表,从而减轻领域偏差。Narrator 基于这些触发器生成高质量、领域对齐的句子,Refiner 识别额外的事件提及以提升注释质量。在三个基于不同领域的 ED 数据集上的实验结果表明,SNaRe 在零样本和少样本设置下平均 F1 提升 3-7%,在多语言生成中平均 F1 提升 4-20%,优于现有的最先进技术。对生成的触发器命中率和人工评估的分析证实了 SNaRe 的高注释质量和较低的领域偏差。

Takeaways, Limitations

Takeaways:
提出有效的合成数据生成框架以提高特定领域事件检测性能。
有效解决标签噪声和领域偏差问题。
在零样本和小样本学习环境中取得优异的表现。
通过多语言支持确保多功能性。
Limitations:
实验结果仅限于特定领域。需要跨不同领域进行更多实验。
SNaRe 的性能提升可能偏向于特定的数据集或任务,需要在更广泛的数据集和任务上进行评估。
缺乏对Refiner模块具体算法和性能的详细描述。
对合成数据生成过程中可能出现的偏差的分析和解决方案不足。
👍