AbGen là chuẩn mực đầu tiên được thiết kế để đánh giá khả năng thiết kế các nghiên cứu cắt bỏ cho nghiên cứu khoa học. Nó bao gồm 1.500 ví dụ được chú thích bởi chuyên gia được trích xuất từ 807 bài báo NLP, và giao nhiệm vụ cho các LLM tạo ra các thiết kế nghiên cứu cắt bỏ chi tiết cho các mô-đun hoặc quy trình cụ thể trong một bối cảnh nghiên cứu nhất định. Kết quả đánh giá trên các LLM hàng đầu như DeepSeek-R1-0528 và o4-mini cho thấy sự khác biệt đáng kể về hiệu suất giữa các mô hình này và các chuyên gia về tầm quan trọng, độ trung thực và tính vững chắc của thiết kế nghiên cứu cắt bỏ. Hơn nữa, các phương pháp đánh giá tự động hiện tại cho thấy sự khác biệt đáng kể so với đánh giá của con người, cho thấy chúng không đáng tin cậy cho nhiệm vụ này. Để tìm hiểu sâu hơn về vấn đề này, chúng tôi đã phát triển AbGen-Eval, một chuẩn mực đánh giá tổng hợp được thiết kế để đánh giá độ tin cậy của các hệ thống đánh giá tự động phổ biến được sử dụng để đo lường hiệu suất LLM trong nhiệm vụ này. AbGen-Eval xem xét nhiều hệ thống LLM-as-Judge, cung cấp thông tin chi tiết về việc phát triển các hệ thống đánh giá dựa trên LLM hiệu quả và đáng tin cậy hơn cho các nhiệm vụ khoa học phức tạp.