[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les perturbations rapides révèlent des biais semblables à ceux des humains dans les réponses aux enquêtes LLM

Created by
  • Haebom

Auteur

Jens Rupprecht, Georg Ahnert, Markus Strohmaier

Contour

Cet article examine la fiabilité et la vulnérabilité aux biais de réponse des modèles linguistiques à grande échelle (MLH) utilisés comme substituts de sujets humains dans les enquêtes en sciences sociales. À l'aide du questionnaire de la World Values Survey (WVS), nous avons mené plus de 167 000 simulations d'entretiens avec neuf LH différents, en appliquant 11 modifications au format des questions et à la structure des options de réponse. Nous constatons que les LH sont non seulement vulnérables aux changements, mais présentent également un biais de récence constant dans tous les modèles, avec des forces variables, et privilégient excessivement la dernière option de réponse présentée. Bien que les modèles à grande échelle soient généralement plus robustes, tous les modèles restent sensibles aux changements sémantiques tels que la reformulation et les modifications complexes. En appliquant une série de modifications, nous constatons que les LH correspondent partiellement aux biais de réponse observés chez les humains. Cela souligne l'importance d'une conception rapide et de tests de robustesse lors de la génération de données d'enquête synthétiques à l'aide de LH.

Takeaways, Limitations

Takeaways:
Montre que le LLM est vulnérable au biais de réponse lorsqu’il est appliqué aux enquêtes en sciences sociales.
Confirmation du biais de récence qui apparaît systématiquement dans les LLM.
Soulignez l’importance d’une conception rapide et de tests de robustesse lors de la génération de données d’enquête synthétiques à l’aide de LLM.
Des tailles LLM plus grandes entraînent généralement une plus grande robustesse.
Nous confirmons que le biais de réponse du LLM correspond partiellement au biais de réponse humain.
Limitations:
Le type de LLM utilisé dans cette étude et les caractéristiques des questions WVS peuvent affecter la généralisabilité des résultats de l’étude.
Des recherches supplémentaires sont nécessaires sur des types plus diversifiés de questions d’enquête et de perturbations.
Des recherches supplémentaires sont nécessaires pour déterminer comment éliminer complètement le biais de réponse dans les LLM.
👍