大规模语言模型 (LLM) 正被用于社会科学调查中替代人类,但其可靠性以及对类似人类反应偏差(例如集中趋势、观点漂移和首因效应)的脆弱性仍知之甚少。本研究探讨了 LLM 在规范调查环境中的响应稳健性。我们用来自世界价值观调查 (WVS) 的问题测试了九个 LLM,对问题措辞和答案选项结构应用了十种综合扰动,以生成超过 167,000 个模拟调查访谈。这揭示了 LLM 易受混杂因素影响的脆弱性,并发现所有测试模型都表现出一致的近因偏差,即过度偏向最后出现的答案选项。虽然较大的模型通常更稳健,但所有模型都对语义变化(例如释义)和组合混杂因素敏感。这凸显了在使用 LLM 生成合成调查数据时,及时设计和稳健性测试的重要性。