Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Từ AI-Slop đến AI-Polish? Điều chỉnh Mô hình Ngôn ngữ thông qua Phần thưởng Viết dựa trên Chỉnh sửa và Tính toán Thời gian Kiểm tra

Created by
  • Haebom

Tác giả

Tuhin Chakrabarty, Philippe Laban, Chiến Thắng Wu

Phác thảo

Bài báo này tập trung vào việc đánh giá và cải thiện chất lượng văn bản do AI tạo ra. Với sự gia tăng nhanh chóng về khối lượng văn bản do AI tạo ra, việc đánh giá và cải thiện "chất lượng" của văn bản, vượt ra ngoài phạm vi độ chính xác và nhất quán về mặt ngữ pháp, đã trở nên ngày càng quan trọng. Chúng tôi trình bày Điểm chuẩn Chất lượng Viết (WQ), một bộ gồm 4.729 đánh giá chất lượng viết, được tích hợp từ năm tập dữ liệu hiện có. Một số mô hình cơ sở, bao gồm cả các chương trình LLM tiên tiến, chứng minh rằng chúng không vượt trội đáng kể so với các điểm chuẩn ngẫu nhiên về WQ. Để giải quyết vấn đề này, chúng tôi huấn luyện các Mô hình Thưởng Chất lượng Viết (WQRM) với nhiều quy mô khác nhau để đánh giá chất lượng viết, đạt được hiệu suất khái quát hóa mạnh mẽ và độ chính xác 74% trên điểm chuẩn WQ trên bốn tập kiểm tra không phân phối. Hơn nữa, chúng tôi chứng minh rằng WQRM có thể được sử dụng để tạo và xếp hạng các bản sửa đổi ứng viên, cho phép lựa chọn các đầu ra chất lượng cao hơn so với bản thảo ban đầu. Trong các đánh giá của con người do chín nhà văn chuyên nghiệp thực hiện, phương pháp lựa chọn dựa trên WQRM đã tạo ra các mẫu viết được các chuyên gia ưa chuộng 66% thời gian, và 72,2% thời gian khi chênh lệch phần thưởng lớn hơn một điểm. Các nhà nghiên cứu dự định đóng góp vào sự phát triển của các hệ thống viết AI bằng cách công khai bộ dữ liệu và mô hình.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một chuẩn mực (WQ) và mô hình đánh giá (WQRM) mới để đánh giá định tính văn bản do AI tạo ra.
WQRM chứng minh hiệu suất đánh giá chất lượng viết vượt trội so với các mô hình hiện có.
Đề Xuất khả năng cải thiện chất lượng văn bản do AI tạo ra thông qua việc tạo và lựa chọn nhiều ứng viên bằng WQRM.
Thúc đẩy sự hợp tác và phát triển giữa học viện và ngành công nghiệp thông qua việc công bố các tập dữ liệu và mô hình.
_____T149187____-:
Tiêu chuẩn WQ vẫn dựa trên một phạm vi tập dữ liệu hạn chế.
Hiệu suất của WQRM chủ yếu dựa trên các đánh giá định lượng và có thể không phản ánh đầy đủ các khía cạnh định tính như lựa chọn từ vựng tinh tế hoặc phong cách.
Quy mô đánh giá của con người tương đối nhỏ, đòi hỏi phải nghiên cứu thêm về khả năng khái quát hóa.
Có những giới hạn trong việc phản ánh hoàn hảo những đánh giá chủ quan về chất lượng bài viết.
👍