虽然大规模语言模型 (LLM) 能够实现社会科学研究的自动化,但其输出结果会因研究人员的选择(例如模型选择、提示策略)而存在显著差异。这种差异性会引入系统性偏差和随机误差,从而影响分析,导致 I 类、II 类、S 类和 M 类错误。这种现象被称为 LLM 攻击。故意攻击 LLM 很简单,37 个数据注释任务的重复表明,只需修改提示即可获得具有统计意义的结果。此外,对 18 个 LLM 模型中 2,361 个实际假设的 1,300 万个标签进行分析后发现,即使遵循标准研究方法,LLM 被无意攻击的风险也很高。最先进的 LLM 模型在约 31% 的假设中得出了错误的结论,而小型语言模型在一半的假设中得出了错误的结论。LLM 被攻击的风险随着效应值的增加而降低,这表明人工注释在防止误报方面发挥着关键作用。提出了防止 LLM 黑客攻击的实用建议。