[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AbGen: Đánh giá các mô hình ngôn ngữ lớn trong thiết kế và đánh giá nghiên cứu cắt bỏ cho nghiên cứu khoa học

Created by
  • Haebom

Tác giả

Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan

Phác thảo

AbGen là chuẩn mực đầu tiên được thiết kế để đánh giá khả năng thiết kế các nghiên cứu cắt bỏ cho nghiên cứu khoa học. Nó bao gồm 1.500 ví dụ được chú thích bởi chuyên gia được trích xuất từ 807 bài báo NLP, và giao nhiệm vụ cho các LLM tạo ra các thiết kế nghiên cứu cắt bỏ chi tiết cho các mô-đun hoặc quy trình cụ thể trong một bối cảnh nghiên cứu nhất định. Kết quả đánh giá trên các LLM hàng đầu như DeepSeek-R1-0528 và o4-mini cho thấy sự khác biệt đáng kể về hiệu suất giữa các mô hình này và các chuyên gia về tầm quan trọng, độ trung thực và tính vững chắc của thiết kế nghiên cứu cắt bỏ. Hơn nữa, các phương pháp đánh giá tự động hiện tại cho thấy sự khác biệt đáng kể so với đánh giá của con người, cho thấy chúng không đáng tin cậy cho nhiệm vụ này. Để tìm hiểu sâu hơn về vấn đề này, chúng tôi đã phát triển AbGen-Eval, một chuẩn mực đánh giá tổng hợp được thiết kế để đánh giá độ tin cậy của các hệ thống đánh giá tự động phổ biến được sử dụng để đo lường hiệu suất LLM trong nhiệm vụ này. AbGen-Eval xem xét nhiều hệ thống LLM-as-Judge, cung cấp thông tin chi tiết về việc phát triển các hệ thống đánh giá dựa trên LLM hiệu quả và đáng tin cậy hơn cho các nhiệm vụ khoa học phức tạp.

Takeaways, Limitations

Takeaways: Tiêu chuẩn AbGen cung cấp một tiêu chuẩn mới để đánh giá khả năng thiết kế nghiên cứu cắt đốt của các chương trình Thạc sĩ Luật (LLM). Tiêu chuẩn này cho thấy rõ những hạn chế về hiệu suất của các chương trình LLM và đề xuất các hướng nghiên cứu trong tương lai. Tiêu chuẩn này đặt ra vấn đề về độ tin cậy của các hệ thống đánh giá tự động và nhấn mạnh nhu cầu phát triển các hệ thống đánh giá tốt hơn. AbGen-Eval đóng góp vào nghiên cứu nhằm cải thiện độ tin cậy của các hệ thống đánh giá dựa trên LLM.
Limitations: Minh chứng cho việc thiếu năng lực thiết kế nghiên cứu cắt bỏ của các chương trình Thạc sĩ Luật (LLM) chính thống hiện nay. Điều này nhấn mạnh sự khó khăn trong việc đánh giá hiệu suất LLM do thiếu độ tin cậy của các hệ thống đánh giá tự động. Có thể cần nghiên cứu thêm về quy mô và tính đa dạng của bộ dữ liệu chuẩn AbGen. Cần nghiên cứu thêm để xác định liệu những hiểu biết sâu sắc do AbGen-Eval cung cấp có thể được tổng quát hóa cho tất cả các nhiệm vụ khoa học phức tạp hay không.
👍