Este artículo investiga la confiabilidad y vulnerabilidad al sesgo de respuesta de los modelos de lenguaje a gran escala (LLMs) como sustitutos de sujetos humanos en encuestas de ciencias sociales. Utilizando el cuestionario de la Encuesta Mundial de Valores (WVS), realizamos más de 167,000 entrevistas simuladas con nueve LLM diferentes, aplicando 11 cambios al formato de la pregunta y la estructura de las opciones de respuesta. Encontramos que los LLM no solo son vulnerables al cambio, sino que también exhiben un sesgo de actualidad consistente en todos los modelos, con diferentes fortalezas, y sobreprefieren la última opción de respuesta presentada. Aunque los modelos más grandes son generalmente más robustos, todos los modelos siguen siendo sensibles a cambios semánticos como la reformulación y los cambios complejos. Al aplicar una serie de cambios, encontramos que los LLM coinciden parcialmente con los sesgos de respuesta de la encuesta observados en humanos. Esto resalta la importancia del diseño rápido y las pruebas de robustez al generar datos de encuestas sintéticas utilizando LLMs.