Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quantification du biais induit par les étiquettes dans les auto-évaluations et les évaluations croisées des grands modèles linguistiques

Created by
  • Haebom

Auteur

Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush

Contour

Cette étude a examiné les biais d'auto-évaluation et d'évaluation par les pairs à l'aide de trois modèles linguistiques à grande échelle (MLE) : ChatGPT, Gemini et Claude. Chaque modèle a été évalué selon quatre conditions (absence d'étiquette, étiquette vraie et deux scénarios d'étiquette fausse) pour les articles de blog rédigés par chaque modèle, en utilisant un vote de préférence global et des notes de qualité pour la cohérence, le contenu informatif et la concision. Les résultats ont révélé que le nom du modèle (« Claude », « Gemini ») influençait significativement les résultats de l'évaluation. L'étiquette « Claude » tendait à augmenter les scores, tandis que l'étiquette « Gemini » tendait à les diminuer, et les fausses étiquettes inversaient même les classements. Cela démontre que la conscience qu'a un modèle de son identité peut influencer significativement les jugements généraux et les évaluations de qualité détaillées.

Takeaways, Limitations

Takeaways:
Les LLM auto-évalués et évalués par des pairs montrent que le nom (l'identité) d'un modèle peut influencer de manière significative les résultats de l'évaluation.
Cela suggère que des protocoles d’évaluation anonymes ou multi-modèles sont nécessaires pour une analyse comparative équitable des LLM.
Lors de l’évaluation des LLM, nous soulignons l’importance des tests à l’aveugle qui masquent l’identité du modèle.
Elle remet en question la fiabilité de l’auto-évaluation du modèle.
Limitations:
Cette étude s’est limitée à trois LLM spécifiques, ce qui limite sa généralisabilité.
Le sujet ou le style de l’article de blog utilisé peut avoir influencé les résultats.
Des recherches supplémentaires sont nécessaires, notamment sur des mesures d’évaluation plus diversifiées et davantage de modèles.
👍