Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cải thiện thứ hạng mô hình của bạn trên Chatbot Arena bằng cách gian lận phiếu bầu

Created by
  • Haebom

Tác giả

Rui Min, Tianyu Pang, Chao Du, Qian Liu, Minhao Cheng, Min Lin

Phác thảo

Chatbot Arena là một nền tảng để đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách để người dùng bỏ phiếu cho phản hồi ưa thích của họ giữa hai mô hình ẩn danh. Bài báo này chứng minh rằng việc bỏ phiếu cộng đồng có thể bị thao túng để tăng hoặc giảm thứ hạng của một mô hình cụ thể một cách giả tạo. Đầu tiên, chúng tôi giới thiệu một chiến lược thao túng đơn giản chỉ tập trung vào việc bỏ phiếu cho một mô hình cụ thể và chỉ ra sự kém hiệu quả của nó. Để khắc phục điều này, chúng tôi đề xuất một chiến lược thao túng toàn diện tận dụng cơ chế xếp hạng Elo của Chatbot Arena để thao túng phiếu bầu trong các trận đấu không liên quan trực tiếp đến một mô hình cụ thể, do đó ảnh hưởng đến thứ hạng của nó. Các thí nghiệm sử dụng 1,7 triệu dữ liệu phiếu bầu hiện có chứng minh rằng chiến lược thao túng toàn diện này có thể cải thiện thứ hạng của mô hình chỉ với vài trăm phiếu bầu mới. Trong khi chúng tôi đánh giá một số cơ chế phòng thủ, chúng tôi nhấn mạnh tầm quan trọng của việc ngăn chặn thao túng phiếu bầu.

Takeaways, Limitations

Takeaways: Minh họa tính dễ bị tổn thương của các nền tảng đánh giá LLM dựa trên cộng đồng, chẳng hạn như Chatbot Arena. Chứng minh rằng ngay cả một lượng thao túng phiếu bầu tương đối nhỏ cũng có thể làm thay đổi đáng kể thứ hạng mô hình thông qua một chiến lược thao túng toàn diện. Nhấn mạnh tầm quan trọng của việc phát triển các kỹ thuật chống bỏ phiếu để đảm bảo độ tin cậy của các nền tảng đánh giá LLM.
Limitations: Thiếu phân tích chi tiết về hiệu quả của cơ chế phòng thủ được đề xuất. Thiếu phân tích toàn diện về các loại chiến lược thao túng khác nhau. Nghiên cứu này dựa trên phân tích dữ liệu hiện có, chứ không phải các nỗ lực thao túng trực tiếp trên hệ thống Chatbot Arena thực tế. Thiếu phân tích chuyên sâu về các yếu tố ảnh hưởng đến tỷ lệ thành công của các chiến lược thao túng cụ thể (ví dụ: sự tham gia của cử tri, đặc điểm của mô hình, v.v.).
👍