Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cái tốt, cái xấu và cái mang tính xây dựng: Tự động đo lường tiện ích của việc bình duyệt ngang hàng đối với tác giả

Created by
  • Haebom

Tác giả

Abdelrahman Sadallah, nghệ sĩ Tim Baumg, Iryna Gurevych, Ted Briscoe

Phác thảo

Bài báo này nhằm mục đích phát triển một hệ thống tự động để cung cấp cho tác giả phản hồi hữu ích trong quá trình bình duyệt ngang hàng. Để giải quyết các hạn chế về thời gian của người bình duyệt, chúng tôi đề xuất bốn chiều chính giúp tăng cường tính hữu ích của các bài bình duyệt: khả năng hành động, bằng chứng và tính cụ thể, khả năng xác minh và khả năng sử dụng. Để đánh giá các chiều này và tạo điều kiện thuận lợi cho việc phát triển mô hình, chúng tôi giới thiệu bộ dữ liệu RevUtil, bao gồm 1.430 nhận xét bình duyệt do con người gắn nhãn và 10.000 dữ liệu được gắn nhãn tổng hợp. Dữ liệu tổng hợp cũng bao gồm các cơ sở lý luận, giải thích điểm số của từng chiều. Sử dụng bộ dữ liệu RevUtil, chúng tôi đánh giá chuẩn các mô hình được tinh chỉnh để đánh giá các chiều này và tạo ra các cơ sở lý luận. Kết quả thử nghiệm cho thấy các mô hình được tinh chỉnh đạt được sự đồng thuận với con người, tương đương hoặc trong một số trường hợp vượt trội hơn các mô hình dạng đóng mạnh mẽ như GPT-4o. Tuy nhiên, các bài bình duyệt do máy tạo ra thường có hiệu suất kém hơn so với người bình duyệt trên cả bốn chiều.

Takeaways, Limitations

Takeaways:
ĐóNg góp vào sự phát triển của hệ thống đánh giá ngang hàng tự động bằng cách trình bày bốn khía cạnh chính để đánh giá tính hữu ích của đánh giá (Khả năng hành động, Cơ sở & Tính cụ thể, Khả năng xác minh, Tính hữu ích).
ĐóNg góp vào sự tiến bộ của nghiên cứu liên quan bằng cách cung cấp tập dữ liệu RevUtil.
Chúng tôi chứng minh rằng các mô hình được tinh chỉnh có thể đạt được hiệu suất ngang bằng con người.
Limitations:
Vì mô hình được đào tạo bằng dữ liệu tổng hợp nên hiệu suất tổng quát của mô hình trên dữ liệu thực cần được xác minh.
Thiếu phân tích chuyên sâu về lý do tại sao các bài đánh giá do máy tạo ra lại kém hiệu quả hơn các bài đánh giá của con người.
Có thể còn có những khía cạnh quan trọng khác ngoài bốn khía cạnh này.
👍