Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
SciReplicate-Bench: Đánh giá chuẩn LLM trong việc tái tạo thuật toán dựa trên tác nhân từ các bài báo nghiên cứu
Created by
Haebom
Tác giả
Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He
Phác thảo
Nghiên cứu này đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) tạo mã từ các mô tả thuật toán trong các bài báo NLP gần đây. Nhiệm vụ này đòi hỏi hai năng lực cốt lõi: hiểu biết về thuật toán (khả năng tổng hợp thông tin từ các bài báo và tài liệu học thuật để hiểu logic triển khai) và chuyên môn về lập trình (khả năng xác định các phụ thuộc và triển khai chính xác các API cần thiết). Để đảm bảo đánh giá nghiêm ngặt, chúng tôi giới thiệu SciReplicate-Bench, một tiêu chuẩn bao gồm 100 nhiệm vụ từ 36 bài báo NLP được xuất bản vào năm 2024. Tiêu chuẩn này bao gồm các chú thích chi tiết và các trường hợp kiểm thử toàn diện. Dựa trên SciReplicate-Bench, chúng tôi đề xuất Sci-Reproducer, một khuôn khổ tác nhân kép bao gồm một Paper Agent, diễn giải các khái niệm thuật toán từ tài liệu và một Code Agent, truy xuất các phụ thuộc từ kho lưu trữ và triển khai các giải pháp. Để đánh giá sự hiểu biết về thuật toán, chúng tôi giới thiệu độ chính xác của đồ thị suy luận, định lượng sự tương đồng giữa đồ thị suy luận được tạo ra và đồ thị suy luận tham chiếu có nguồn gốc từ chú thích và cấu trúc mã. Để đánh giá chất lượng triển khai, chúng tôi sử dụng các số liệu về độ chính xác thực thi, CodeBLEU và sự phụ thuộc của kho lưu trữ/thu hồi API. Trong các thử nghiệm của mình, chúng tôi đánh giá nhiều LLM mạnh mẽ, cả không suy luận lẫn suy luận, làm mô hình cơ sở. LLM hiệu suất cao nhất sử dụng \ModelName chỉ đạt độ chính xác 39%, cho thấy sự khó khăn trong việc đánh giá chuẩn. Phân tích của chúng tôi cho thấy việc thiếu hoặc không nhất quán trong mô tả thuật toán là một rào cản lớn đối với khả năng tái tạo thành công. Tiêu chuẩn và mã có sẵn tại https://github.com/xyzCS/SciReplicate-Bench , và trang chủ của dự án có sẵn tại https://xyzcs.github.io/scireplicate.github.io/에서 .
Cung cấp các tiêu chí đánh giá và chuẩn mực nghiêm ngặt (SciReplicate-Bench) cho khả năng hiểu thuật toán và kỹ năng tạo mã của LLM.
◦
Giới thiệu các số liệu mới để đánh giá khả năng hiểu thuật toán và triển khai mã (độ chính xác của đồ thị suy luận, độ chính xác thực thi, CodeBLEU, sự phụ thuộc vào kho lưu trữ/thu hồi API).
◦
Làm nổi bật rõ ràng những hạn chế về khả năng tái tạo thuật toán LLM hiện tại (độ chính xác thực hiện thấp của các mô hình có hiệu suất tốt nhất).
◦
Chúng tôi chứng minh rằng chất lượng mô tả thuật toán có tác động đáng kể đến sự thành công của việc tạo mã.
•
Limitations:
◦
Số lượng bài viết và nhiệm vụ đưa vào tiêu chuẩn có thể bị hạn chế.
◦
Cần phải xem xét toàn diện các chỉ số đánh giá và có khả năng thiên vị đối với các chỉ số cụ thể.
◦
Các loại LLM được sử dụng có thể bị hạn chế và cần phải đánh giá nhiều mô hình hơn.
◦
Thật khó để loại trừ hoàn toàn ảnh hưởng của các yếu tố bên ngoài như tính không đầy đủ của mô tả thuật toán.