Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MỞ ĐẦU: Một chuẩn mực được thiết kế để yêu cầu sự hiểu biết và lý luận toàn cầu trong bối cảnh dài

Created by
  • Haebom

Tác giả

Mo Yu, Tsz Ting Chung, Chulun Chu, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Chu

Phác thảo

PRELUDE là một chuẩn mực để đánh giá khả năng hiểu ngữ cảnh văn bản dài bằng cách đánh giá xem câu chuyện tiền truyện của nhân vật có phù hợp với cốt truyện chính thức của tiểu thuyết gốc hay không. Vì phần tiền truyện không phải là một phần của tiểu thuyết gốc, nên việc đánh giá tính hợp lệ của chúng đòi hỏi phải truy xuất và tích hợp thông tin liên quan gián tiếp, đòi hỏi sự hiểu biết tổng thể cao hơn và lý luận sâu sắc hơn so với các chuẩn mực hiện có. Kết quả thử nghiệm cho thấy 88% trường hợp yêu cầu bằng chứng từ nhiều phần của câu chuyện. Sử dụng LLM, RAG, học tập trong miền tiên tiến và dịch vụ DeepResearch thương mại, mô hình này kém hiệu quả hơn con người hơn 15%. Các nghiên cứu bổ sung trên con người cho thấy mô hình thường tạo ra các câu trả lời đúng với suy luận không chính xác, dẫn đến sự khác biệt 30% hoặc hơn về độ chính xác suy luận so với con người. Những kết quả này làm nổi bật khả năng cải thiện đáng kể về khả năng hiểu và lý luận ngữ cảnh văn bản dài.

Takeaways, Limitations

Takeaways: Trình bày PRELUDE, một chuẩn mực mới để đánh giá khả năng hiểu và lập luận ngữ cảnh dạng dài. Kết quả thực nghiệm cho thấy những hạn chế của các phương pháp luận hiện có. Minh họa rõ ràng những thiếu sót của các mô hình tiên tiến, chẳng hạn như LLM, trong việc hiểu ngữ cảnh dạng dài. Cung cấp cái nhìn sâu sắc về sự khác biệt trong quá trình lập luận giữa con người và AI.
Limitations: Thiếu thông tin chi tiết về quy mô và tính đa dạng của bộ dữ liệu chuẩn PRELUDE hiện tại. Thiếu thông tin chi tiết về số lượng người tham gia và tiêu chí lựa chọn của họ. Việc phân tích quá trình suy luận của mô hình còn thiếu sót.
👍