Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

UFEval: Đánh giá chi tiết thống nhất với Tổng quát hóa Nhiệm vụ và Khía cạnh

Created by
  • Haebom

Tác giả

Shibo Hong, Jiahao Ying, Haiyuan Liang, Mengdi Zhang, Jun Kuang, Jiazheng Zhang, Yixin Cao

Phác thảo

Để Giải quyết những thách thức của việc đánh giá đầu ra mở của các mô hình đa phương thức quy mô lớn, bài báo này đề xuất UFEval, một bộ đánh giá chi tiết tích hợp nhiều tác vụ và khía cạnh. UFEval dựa trên phân loại khía cạnh phân cấp bao gồm 112 khía cạnh chi tiết trên bốn tác vụ: tạo ngôn ngữ tự nhiên, hiểu hình ảnh, tạo hình ảnh, và tạo văn bản chéo và hình ảnh. Chúng tôi đã huấn luyện UFEval trên FRABench, một bộ dữ liệu đánh giá chi tiết bao gồm 64.000 mẫu so sánh từng cặp và 325.000 nhãn đánh giá. Kết quả thực nghiệm chứng minh rằng việc học trên các khía cạnh cụ thể cho phép khái quát hóa các khía cạnh chưa được biết đến, và việc học kết hợp trên nhiều tác vụ và khía cạnh mang lại kết quả có lợi cho cả hai bên.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một tiêu chí đánh giá mô hình đa phương thức tích hợp và chi tiết bao gồm nhiều nhiệm vụ và phương thức khác nhau.
Gợi ý khả năng khái quát hóa những khía cạnh chưa thấy thông qua việc tìm hiểu những khía cạnh cụ thể.
Xác định hiệu ứng hiệp đồng của việc học tập cộng tác trong nhiều nhiệm vụ và khía cạnh khác nhau.
Bộ dữ liệu đánh giá đa phương thức, cấp độ khía cạnh quy mô lớn do FRABench cung cấp.
Limitations:
Cần phải xem xét thêm về độ tin cậy và độ lệch của chú thích của con người và GPT-4o trên tập dữ liệu FRABench.
Thiếu phân tích so sánh về hiệu suất của UFEval được đề xuất với các phương pháp đánh giá khác.
Cần thảo luận thêm về tính toàn diện và tính phù hợp của hệ thống phân loại 112 mục.
Cần có nhiều thí nghiệm và phân tích mở rộng hơn để xác định khả năng khái quát hóa của UFEval.
👍