Bài báo này xác định những thách thức trong việc đánh giá các mô hình học máy tạo sinh và đề xuất GrandJury, một giao thức đánh giá mới để giải quyết những vấn đề này. Bài báo nêu bật những hạn chế của các phương pháp đánh giá tĩnh, dựa trên chuẩn hiện có, vốn không phản ánh được nhu cầu động của người dùng hoặc các hoàn cảnh thay đổi. GrandJury kết hợp tổng hợp phân rã theo thời gian, khả năng truy xuất nguồn gốc đầy đủ, áp dụng linh hoạt và minh bạch các tiêu chí công việc, cùng với đánh giá của nhiều người đánh giá để cho phép đánh giá đa ngành và có trách nhiệm. Nó cung cấp một triển khai nguồn mở (gói GrandJury PyPI) bao gồm các kết quả suy luận LLM, chứng minh sự cần thiết và phương pháp luận của GrandJury. Điều này đặt ra một mô hình mới để đánh giá đầu ra của học máy mà không có câu trả lời tuyệt đối.