[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Las perturbaciones inmediatas revelan sesgos similares a los humanos en las respuestas de la encuesta LLM

Created by
  • Haebom

Autor

Jens Rupprecht, Georg Ahnert, Markus Strohmaier

Describir

Este artículo investiga la confiabilidad y vulnerabilidad al sesgo de respuesta de los modelos de lenguaje a gran escala (LLMs) como sustitutos de sujetos humanos en encuestas de ciencias sociales. Utilizando el cuestionario de la Encuesta Mundial de Valores (WVS), realizamos más de 167,000 entrevistas simuladas con nueve LLM diferentes, aplicando 11 cambios al formato de la pregunta y la estructura de las opciones de respuesta. Encontramos que los LLM no solo son vulnerables al cambio, sino que también exhiben un sesgo de actualidad consistente en todos los modelos, con diferentes fortalezas, y sobreprefieren la última opción de respuesta presentada. Aunque los modelos más grandes son generalmente más robustos, todos los modelos siguen siendo sensibles a cambios semánticos como la reformulación y los cambios complejos. Al aplicar una serie de cambios, encontramos que los LLM coinciden parcialmente con los sesgos de respuesta de la encuesta observados en humanos. Esto resalta la importancia del diseño rápido y las pruebas de robustez al generar datos de encuestas sintéticas utilizando LLMs.

Takeaways, Limitations

Takeaways:
Muestra que el LLM es vulnerable al sesgo de respuesta cuando se aplica a encuestas de ciencias sociales.
Confirmando el sesgo de actualidad que aparece consistentemente en los LLM.
Enfatizar la importancia del diseño rápido y de las pruebas de robustez al generar datos de encuestas sintéticas utilizando LLM.
Los tamaños de LLM más grandes generalmente dan como resultado una mayor robustez.
Confirmamos que el sesgo de respuesta de LLM coincide parcialmente con el sesgo de respuesta humano.
Limitations:
El tipo de LLM utilizado en este estudio y las características de las preguntas de WVS pueden afectar la generalización de los resultados del estudio.
Se necesitan más investigaciones sobre tipos más diversos de preguntas de encuesta y perturbaciones.
Se necesitan más investigaciones para determinar cómo eliminar por completo el sesgo de respuesta en los LLM.
👍