Bài báo này nhấn mạnh nhu cầu ngày càng tăng về việc đánh giá hiệu suất chung của con người và LLM, được thúc đẩy bởi sự phát triển nhanh chóng của các mô hình ngôn ngữ quy mô lớn (LLM). Tuy nhiên, các chuẩn mực hiện có, chẳng hạn như MMLU, chỉ đo lường khả năng của LLM một cách riêng lẻ. Do đó, chúng tôi đã thiết kế và tiến hành một nghiên cứu người dùng nhằm chuyển đổi các câu hỏi MMLU thành các cuộc hội thoại giữa người dùng và AI, đưa ra các câu hỏi cho người dùng và để họ trả lời thông qua các cuộc hội thoại với LLM. Chúng tôi đã phát hành ChatBench, một tập dữ liệu mới chứa dữ liệu chỉ dành cho AI, chỉ dành cho người dùng và dữ liệu người dùng-AI cho 396 câu hỏi và hai LLM, bao gồm 144.000 phản hồi và 7.336 cuộc hội thoại giữa người dùng và AI. Phát hiện của chúng tôi chứng minh rằng độ chính xác chỉ dành cho AI không dự đoán được độ chính xác giữa người dùng và AI, và có những khác biệt đáng kể giữa các môn học như toán học, vật lý và lý luận đạo đức. Bằng cách phân tích các cuộc hội thoại giữa người dùng và AI, chúng tôi cung cấp thông tin chi tiết về cách các cuộc hội thoại này khác với các chuẩn mực chỉ dành cho AI. Cuối cùng, việc tinh chỉnh trình mô phỏng người dùng bằng một tập hợp con của bộ dữ liệu ChatBench giúp cải thiện khả năng ước tính độ chính xác của AI người dùng, tăng tương quan cho các câu hỏi được đưa ra hơn 20%, cho thấy tiềm năng đánh giá hội thoại có thể mở rộng.