Cet article examine la fiabilité et la vulnérabilité aux biais de réponse des modèles linguistiques à grande échelle (MLH) utilisés comme substituts de sujets humains dans les enquêtes en sciences sociales. À l'aide du questionnaire de la World Values Survey (WVS), nous avons mené plus de 167 000 simulations d'entretiens avec neuf LH différents, en appliquant 11 modifications au format des questions et à la structure des options de réponse. Nous constatons que les LH sont non seulement vulnérables aux changements, mais présentent également un biais de récence constant dans tous les modèles, avec des forces variables, et privilégient excessivement la dernière option de réponse présentée. Bien que les modèles à grande échelle soient généralement plus robustes, tous les modèles restent sensibles aux changements sémantiques tels que la reformulation et les modifications complexes. En appliquant une série de modifications, nous constatons que les LH correspondent partiellement aux biais de réponse observés chez les humains. Cela souligne l'importance d'une conception rapide et de tests de robustesse lors de la génération de données d'enquête synthétiques à l'aide de LH.