Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejorar la clasificación de su modelo en Chatbot Arena mediante la manipulación de votos

Created by
  • Haebom

Autor

Rui Min, Tianyu Pang, Chao Du, Qian Liu, Minhao Cheng, Min Lin

Describir

Chatbot Arena es una plataforma para evaluar modelos de lenguaje a gran escala (LLM) mediante la votación de los usuarios por su respuesta preferida entre dos modelos anónimos. Este artículo demuestra que la votación colaborativa puede manipularse para aumentar o disminuir artificialmente la clasificación de un modelo específico. Primero, presentamos una estrategia de manipulación simple que se centra únicamente en votar por un modelo específico y señalamos su ineficiencia. Para solucionar esto, proponemos una estrategia de manipulación integral que aprovecha el mecanismo de calificación Elo de Chatbot Arena para manipular los votos en partidas no directamente relacionadas con un modelo específico, influyendo así en su clasificación. Experimentos con 1,7 millones de datos de votos existentes demuestran que esta estrategia de manipulación integral puede mejorar la clasificación de los modelos con tan solo unos cientos de votos nuevos. Si bien evaluamos varios mecanismos de defensa, enfatizamos la importancia de prevenir la manipulación de votos.

Takeaways, Limitations

Takeaways: Demuestra la vulnerabilidad de las plataformas de evaluación de LLM basadas en crowdsourcing, como Chatbot Arena. Demuestra que incluso una pequeña manipulación de votos puede alterar significativamente la clasificación de los modelos mediante una estrategia de manipulación exhaustiva. Destaca la importancia de desarrollar técnicas antivotación para garantizar la fiabilidad de las plataformas de evaluación de LLM.
Limitations: Falta de un análisis detallado de la eficacia del mecanismo de defensa propuesto. Falta de un análisis exhaustivo de los diversos tipos de estrategias de manipulación. Este estudio se basa en el análisis de datos existentes, no en intentos de manipulación directa del sistema Chatbot Arena. Falta de un análisis exhaustivo de los factores que afectan la tasa de éxito de estrategias de manipulación específicas (p. ej., participación electoral, características del modelo, etc.).
👍