Chatbot Arena là một nền tảng để đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách để người dùng bỏ phiếu cho phản hồi ưa thích của họ giữa hai mô hình ẩn danh. Bài báo này chứng minh rằng việc bỏ phiếu cộng đồng có thể bị thao túng để tăng hoặc giảm thứ hạng của một mô hình cụ thể một cách giả tạo. Đầu tiên, chúng tôi giới thiệu một chiến lược thao túng đơn giản chỉ tập trung vào việc bỏ phiếu cho một mô hình cụ thể và chỉ ra sự kém hiệu quả của nó. Để khắc phục điều này, chúng tôi đề xuất một chiến lược thao túng toàn diện tận dụng cơ chế xếp hạng Elo của Chatbot Arena để thao túng phiếu bầu trong các trận đấu không liên quan trực tiếp đến một mô hình cụ thể, do đó ảnh hưởng đến thứ hạng của nó. Các thí nghiệm sử dụng 1,7 triệu dữ liệu phiếu bầu hiện có chứng minh rằng chiến lược thao túng toàn diện này có thể cải thiện thứ hạng của mô hình chỉ với vài trăm phiếu bầu mới. Trong khi chúng tôi đánh giá một số cơ chế phòng thủ, chúng tôi nhấn mạnh tầm quan trọng của việc ngăn chặn thao túng phiếu bầu.