Trong bài báo này, chúng tôi đề xuất một mô hình đánh giá, chuyển đổi các tập dữ liệu QA hiện có thành các cuộc thảo luận đối kháng có cấu trúc để giải quyết các vấn đề của các chuẩn mực QA hiện có, chẳng hạn như ô nhiễm dữ liệu, ghi nhớ và tăng chi phí tạo tập dữ liệu. Một mô hình bảo vệ câu trả lời đúng, một mô hình khác xây dựng và bảo vệ một câu trả lời thay thế, và một mô hình phân xử không biết câu trả lời đúng sẽ đưa ra quyết định. Mô hình này được đặc trưng bởi việc tăng độ khó thông qua nhiều vòng tranh luận, hạn chế việc ghi nhớ và giảm chi phí quản lý bằng cách tái sử dụng các mục QA hiện có. Những đóng góp chính là một quy trình chuyển đổi các nhiệm vụ QA thành các đánh giá dựa trên thảo luận và một chuẩn mực công khai sử dụng một tập hợp con các câu hỏi MMLU-Pro. Kết quả thực nghiệm xác minh tính mạnh mẽ của phương pháp và hiệu quả của nó đối với ô nhiễm dữ liệu, đồng thời cho thấy mô hình Llama 3.1 được tinh chỉnh với các câu hỏi kiểm tra hoạt động kém trong các cuộc thảo luận. Ngoài ra, chúng tôi chỉ ra rằng ngay cả các mô hình phân xử yếu cũng có thể phân biệt được những người tranh luận mạnh, cho thấy rằng các hệ thống được cải thiện có thể được đánh giá một cách hiệu quả về mặt chi phí. Tóm lại, khuôn khổ của bài báo này nhấn mạnh rằng “chỉ đào tạo trước một tập kiểm tra thôi là chưa đủ” và đưa ra một phương pháp bền vững để đo lường khả năng suy luận thực sự của các mô hình ngôn ngữ nâng cao.