每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

大型语言模型黑客攻击:量化使用 LLM 进行文本注释的隐藏风险

Created by
  • Haebom

作者

Joachim Baumann、Paul Rottger、Aleksandra Urman、Albert Wendsjo 、Flor Miriam Plaza-del-Arco、Johannes B. Gruber、Dirk Hovy

大纲

虽然大规模语言模型 (LLM) 能够实现社会科学研究的自动化,但其输出结果会因研究人员的选择(例如模型选择、提示策略)而存在显著差异。这种差异性会引入系统性偏差和随机误差,从而影响分析,导致 I 类、II 类、S 类和 M 类错误。这种现象被称为 LLM 攻击。故意攻击 LLM 很简单,37 个数据注释任务的重复表明,只需修改提示即可获得具有统计意义的结果。此外,对 18 个 LLM 模型中 2,361 个实际假设的 1,300 万个标签进行分析后发现,即使遵循标准研究方法,LLM 被无意攻击的风险也很高。最先进的 LLM 模型在约 31% 的假设中得出了错误的结论,而小型语言模型在一半的假设中得出了错误的结论。LLM 被攻击的风险随着效应值的增加而降低,这表明人工注释在防止误报方面发挥着关键作用。提出了防止 LLM 黑客攻击的实用建议。

Takeaways, Limitations

Takeaways:
虽然使用法学硕士学位可以加速社会科学研究,但结果可能会因研究人员的选择而有很大差异。
即使遵循标准的研究方法,也可能发生意外错误,以及故意操纵。
尽管LLM成绩有所提高,但黑客攻击的风险并未完全消失。
较小的效应大小更容易受到 LLM 黑客攻击,并且基于 LLM 的结果应该在显著性阈值附近进行严格验证。
人工注释可有效防止误报,回归估计器校准技术可在错误类型之间引入权衡。
需要提出切实可行的建议来防止 LLM 黑客攻击。
Limitations:
没有提供有关具体 LLM 黑客预防技术的详细信息。
缺乏对所提议的缓解技术的有效性的定量分析。
该研究可能仅限于特定的社会科学领域,需要进一步研究以确定其对其他领域的普遍性。
👍