Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer le classement de votre modèle sur Chatbot Arena grâce au trucage des votes

Created by
  • Haebom

Auteur

Rui Min, Tianyu Pang, Chao Du, Qian Liu, Minhao Cheng, Min Lin

Contour

Chatbot Arena est une plateforme d'évaluation de modèles linguistiques à grande échelle (LLM) permettant aux utilisateurs de voter pour leur réponse préférée entre deux modèles anonymes. Cet article démontre que le vote participatif peut être manipulé pour améliorer ou diminuer artificiellement le classement d'un modèle spécifique. Nous présentons tout d'abord une stratégie de manipulation simple qui se concentre uniquement sur le vote pour un modèle spécifique et soulignons son inefficacité. Pour y remédier, nous proposons une stratégie de manipulation complète qui exploite le mécanisme de notation Elo de Chatbot Arena pour manipuler les votes lors de matchs non directement liés à un modèle spécifique, influençant ainsi son classement. Des expériences utilisant 1,7 million de données de vote existantes démontrent que cette stratégie de manipulation complète peut améliorer le classement des modèles avec seulement quelques centaines de nouveaux votes. Tout en évaluant plusieurs mécanismes de défense, nous soulignons l'importance de prévenir la manipulation des votes.

Takeaways, Limitations_

Takeaways : Démontre la vulnérabilité des plateformes d'évaluation des LLM basées sur le crowdsourcing, telles que Chatbot Arena. Démontre que même une manipulation de vote relativement faible peut modifier considérablement le classement des modèles grâce à une stratégie de manipulation complète. Souligne l'importance de développer des techniques anti-vote pour garantir la fiabilité des plateformes d'évaluation des LLM.
Limitations : Absence d'analyse détaillée de l'efficacité du mécanisme de défense proposé. Absence d'analyse exhaustive des différents types de stratégies de manipulation. Cette étude se base sur l'analyse de données existantes, plutôt que sur des tentatives de manipulation directe d'un système Chatbot Arena réel. Absence d'analyse approfondie des facteurs affectant le taux de réussite de stratégies de manipulation spécifiques (par exemple, participation électorale, caractéristiques du modèle, etc.).
👍