每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

即时扰动揭示大型语言模型调查响应中类似人类的偏见

Created by
  • Haebom

作者

延斯·鲁普雷希特、乔治·阿纳特、马库斯·斯特罗迈尔

大纲

大规模语言模型 (LLM) 正被用于社会科学调查中替代人类,但其可靠性以及对类似人类反应偏差(例如集中趋势、观点漂移和首因效应)的脆弱性仍知之甚少。本研究探讨了 LLM 在规范调查环境中的响应稳健性。我们用来自世界价值观调查 (WVS) 的问题测试了九个 LLM,对问题措辞和答案选项结构应用了十种综合扰动,以生成超过 167,000 个模拟调查访谈。这揭示了 LLM 易受混杂因素影响的脆弱性,并发现所有测试模型都表现出一致的近因偏差,即过度偏向最后出现的答案选项。虽然较大的模型通常更稳健,但所有模型都对语义变化(例如释义)和组合混杂因素敏感。这凸显了在使用 LLM 生成合成调查数据时,及时设计和稳健性测试的重要性。

Takeaways, Limitations

当用于生成调查数据时,LLM 容易受到近因效应的影响。
虽然较大的模型通常更稳健,但所有模型都对某些干扰敏感。
及时设计和稳健性测试对于使用 LLM 生成调查数据至关重要。
该研究仅限于九个法学硕士和特定调查(WVS)问题。
该研究重点关注问题措辞和答案选择结构的紊乱。
将结果推广到其他调查和模型需要进一步研究。
👍