Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MoNaCo: Những câu hỏi tự nhiên và phức tạp hơn để lý luận trên hàng chục tài liệu

Created by
  • Haebom

Tác giả

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabrwal, Reut Tsarfaty

Phác thảo

Bài báo này trình bày MoNaCo, một chuẩn mực mới để đánh giá khả năng tìm kiếm thông tin của các tác nhân tự động dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). Không giống như các chuẩn mực QA hiện có, MoNaCo bao gồm 1.315 câu hỏi ngôn ngữ tự nhiên tốn thời gian, đòi hỏi hàng chục hoặc hàng trăm bước trung gian đối với con người. MoNaCo được xây dựng thông qua một quy trình chú thích phân rã, thu thập và trả lời thủ công một lượng lớn các câu hỏi thực tế tốn thời gian. Việc đánh giá các LLM hiện đại với MoNaCo cho thấy điểm F1 của chúng bị giới hạn ở mức tối đa 61,2% do các vấn đề về hồi tưởng và ảo giác, làm nổi bật những hạn chế của các tác nhân dựa trên LLM trong việc giải quyết các nhiệm vụ tìm kiếm thông tin thực tế phức tạp và rộng lớn. Chuẩn mực, cơ sở mã, lời nhắc và dự đoán mô hình của MoNaCo đều được công khai.

Takeaways, Limitations

Takeaways:
Giới thiệu MoNaCo, một chuẩn mực mới khắc phục được những hạn chế của chuẩn mực QA hiện tại.
Cung cấp đánh giá hiệu suất của các tác nhân dựa trên LLM trong các nhiệm vụ tìm kiếm thông tin phức tạp và tốn thời gian trong thế giới thực.
Tiết lộ các vấn đề về hồi tưởng và ảo giác của các tác nhân dựa trên LLM.
Cung cấp nguồn lực hiệu quả để theo dõi sự phát triển của các tác nhân LLM.
Cho phép nghiên cứu thông qua việc phát hành các tiêu chuẩn, mã, lời nhắc, dự đoán mô hình, v.v. của MoNaCo.
Limitations:
Các câu hỏi của MoNaCo có thể không phản ánh đầy đủ mọi loại nhiệm vụ tìm kiếm thông tin tốn thời gian trong thế giới thực.
Việc mở rộng chuẩn có thể bị hạn chế do phải dựa vào chú thích thủ công.
Chỉ riêng điểm F1, với tư cách là thước đo đánh giá, có thể không đánh giá toàn diện mọi khía cạnh của một tác nhân LLM.
👍