本論文は、大規模言語モデル(LLM)を社会科学調査の人間の被験者の代用として使用することに対する信頼性と反応偏向に対する脆弱性を調査する。 World Values Survey(WVS)質問を使用して、9つの異なるLLMを対象に質問方式と回答オプション構造に対する11の変化を適用し、167,000以上の模擬インタビューを行った。その結果、LLMは変化に対して脆弱であるだけでなく、すべてのモデルで強度が異なりますが、一貫した最新性偏向を示し、最後に提示された回答オプションを過度に好むことを発見しました。より大きなモデルは一般的により強力ですが、すべてのモデルは他の表現に置き換えるなどの意味の変化や複雑な変化に依然として敏感です。一連の変化を適用することによって、LLMがヒトから同定されたアンケート応答の偏向と部分的に一致することがわかった。これは、LLMを使用して合成アンケートデータを生成するときのプロンプト設計と堅牢性テストの重要性を強調します。