Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ChatBench: Từ điểm chuẩn tĩnh đến đánh giá AI-con người

Created by
  • Haebom

Tác giả

Serina Chang, Ashton Anderson, Jake M. Hofman

Phác thảo

Bài báo này nhấn mạnh nhu cầu ngày càng tăng về việc đánh giá hiệu suất chung của con người và LLM, được thúc đẩy bởi sự phát triển nhanh chóng của các mô hình ngôn ngữ quy mô lớn (LLM). Tuy nhiên, các chuẩn mực hiện có, chẳng hạn như MMLU, chỉ đo lường khả năng của LLM một cách riêng lẻ. Do đó, chúng tôi đã thiết kế và tiến hành một nghiên cứu người dùng nhằm chuyển đổi các câu hỏi MMLU thành các cuộc hội thoại giữa người dùng và AI, đưa ra các câu hỏi cho người dùng và để họ trả lời thông qua các cuộc hội thoại với LLM. Chúng tôi đã phát hành ChatBench, một tập dữ liệu mới chứa dữ liệu chỉ dành cho AI, chỉ dành cho người dùng và dữ liệu người dùng-AI cho 396 câu hỏi và hai LLM, bao gồm 144.000 phản hồi và 7.336 cuộc hội thoại giữa người dùng và AI. Phát hiện của chúng tôi chứng minh rằng độ chính xác chỉ dành cho AI không dự đoán được độ chính xác giữa người dùng và AI, và có những khác biệt đáng kể giữa các môn học như toán học, vật lý và lý luận đạo đức. Bằng cách phân tích các cuộc hội thoại giữa người dùng và AI, chúng tôi cung cấp thông tin chi tiết về cách các cuộc hội thoại này khác với các chuẩn mực chỉ dành cho AI. Cuối cùng, việc tinh chỉnh trình mô phỏng người dùng bằng một tập hợp con của bộ dữ liệu ChatBench giúp cải thiện khả năng ước tính độ chính xác của AI người dùng, tăng tương quan cho các câu hỏi được đưa ra hơn 20%, cho thấy tiềm năng đánh giá hội thoại có thể mở rộng.

Takeaways, Limitations

Takeaways:
Nó cho thấy những hạn chế của các phương pháp đánh giá chỉ sử dụng AI hiện tại và gợi ý về nhu cầu cần có một phương pháp đánh giá mới xem xét đến sự hợp tác giữa con người và AI.
Phân tích tương tác giữa người dùng và AI cung cấp những hiểu biết mới để đánh giá hiệu suất của AI.
Trình bày tiềm năng phát triển nghiên cứu trong tương lai thông qua việc phát hành bộ dữ liệu ChatBench.
Đề Xuất khả năng cải thiện độ chính xác của dự đoán tương tác giữa người dùng và AI thông qua việc tinh chỉnh trình mô phỏng người dùng.
Limitations:
Bộ dữ liệu ChatBench bị giới hạn về kích thước đối với các loại câu hỏi cụ thể và LLM, đòi hỏi phải xem xét khả năng khái quát hóa.
Việc cải thiện hiệu suất trong trình mô phỏng người dùng có thể chỉ giới hạn ở các tập dữ liệu cụ thể và cần phải khái quát hóa thành nhiều tình huống và đặc điểm người dùng hơn.
Cần phải xem xét đến số lượng và tính đa dạng của những người tham gia nghiên cứu người dùng.
👍