Chatbot Arena es una plataforma para evaluar modelos de lenguaje a gran escala (LLM) mediante la votación de los usuarios por su respuesta preferida entre dos modelos anónimos. Este artículo demuestra que la votación colaborativa puede manipularse para aumentar o disminuir artificialmente la clasificación de un modelo específico. Primero, presentamos una estrategia de manipulación simple que se centra únicamente en votar por un modelo específico y señalamos su ineficiencia. Para solucionar esto, proponemos una estrategia de manipulación integral que aprovecha el mecanismo de calificación Elo de Chatbot Arena para manipular los votos en partidas no directamente relacionadas con un modelo específico, influyendo así en su clasificación. Experimentos con 1,7 millones de datos de votos existentes demuestran que esta estrategia de manipulación integral puede mejorar la clasificación de los modelos con tan solo unos cientos de votos nuevos. Si bien evaluamos varios mecanismos de defensa, enfatizamos la importancia de prevenir la manipulación de votos.