Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ArXivBench: Khi nào bạn nên tránh sử dụng ChatGPT cho bài viết học thuật

Created by
  • Haebom

Tác giả

Ning Li, Jingran Zhang, Justin Cui

Phác thảo

Bài báo này đánh giá độ chính xác thực tế của các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là độ chính xác của chúng trong việc tạo liên kết đến các bài báo trên arXiv. Chúng tôi đã đánh giá nhiều LLM độc quyền và mã nguồn mở bằng cách sử dụng một chuẩn mực mới, arXivBench, bao gồm tám chuyên ngành chính và năm lĩnh vực phụ của khoa học máy tính. Đánh giá cho thấy LLM gây ra rủi ro đáng kể cho uy tín học thuật, thường tạo ra các liên kết arXiv không chính xác hoặc tham chiếu đến các bài báo không tồn tại. Claude-3.5-Sonnet đã chứng minh độ chính xác tương đối cao, và hầu hết các LLM đều vượt trội đáng kể so với các chuyên ngành khác trong lĩnh vực trí tuệ nhân tạo. Nghiên cứu này góp phần đánh giá và cải thiện độ tin cậy của LLM trong sử dụng học thuật thông qua chuẩn mực arXivBench. Mã nguồn và tập dữ liệu được công khai.

Takeaways, Limitations

Takeaways:
ĐIều này chứng minh tính nghiêm trọng của vấn đề về độ chính xác thực tế trong chương trình LLM, đặc biệt là trong bối cảnh học thuật.
Chúng tôi xác định những biến thể cụ thể trong hiệu suất LLM và đề xuất các hướng phát triển và sử dụng LLM trong tương lai.
Chúng tôi cung cấp một chuẩn mực mới, arXivBench, để cho phép đánh giá khách quan việc sử dụng LLM trong học thuật.
Chúng tôi nhấn mạnh tầm quan trọng của nghiên cứu để đảm bảo tính tin cậy của việc sử dụng LLM trong học thuật.
Limitations:
Tiêu chuẩn hiện tại chỉ giới hạn ở các bài báo arXiv và không đánh giá hiệu suất LLM trên các loại tài liệu học thuật khác.
Các loại và phiên bản LLM được đánh giá có thể bị hạn chế.
Có thể có những hạn chế và cần cải thiện các số liệu được sử dụng để đánh giá hiệu suất của LLM.
👍