Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này nhằm mục đích khắc phục những hạn chế về nhận thức của con người trong việc đào tạo các mô hình ngôn ngữ quy mô lớn (LLM). Các hệ thống tác nhân độc quyền hiện có (ví dụ: DeepResearch) đã chứng minh hiệu suất siêu phàm trên các điểm chuẩn khám phá thông tin cực kỳ phức tạp như BrowseComp, một hiệu suất mà các mô hình nguồn mở không thể đạt được. Chúng tôi lập luận rằng chìa khóa thành công này nằm ở các mẫu suy luận tinh vi giúp giảm thiểu một cách có hệ thống sự không chắc chắn cực độ khi khám phá các môi trường thông tin rộng lớn. Dựa trên hiểu biết sâu sắc này, chúng tôi trình bày WebSailor, một phương pháp sau đào tạo được thiết kế để truyền tải khả năng quan trọng này. WebSailor bao gồm việc tạo ra các tác vụ có độ không chắc chắn cao mới thông qua lấy mẫu có cấu trúc và ẩn thông tin, khởi động lạnh RFT và thuật toán đào tạo học tăng cường tác nhân hiệu quả, Tối ưu hóa chính sách lấy mẫu trùng lặp (DUPO). Với đường ống tích hợp này, WebSailor thu hẹp khoảng cách hiệu suất bằng cách vượt trội hơn tất cả các tác nhân nguồn mở trong các tác vụ khám phá thông tin phức tạp và phù hợp với hiệu suất của các tác nhân độc quyền.
Takeaways, Limitations
•
Takeaways:
◦
Một phương pháp đào tạo sau mới để cải thiện khả năng tìm kiếm thông tin của LLM nguồn mở
◦
Có thể thu hẹp khoảng cách hiệu suất giữa các tác nhân độc quyền và nguồn mở
◦
Một cách tiếp cận mới để cải thiện khả năng lý luận trong những tình huống có độ không chắc chắn cao
◦
Trình bày khả năng học tăng cường tác nhân hiệu quả thông qua thuật toán DUPO
•
Limitations:
◦
Hiệu suất của WebSailor có thể bị giới hạn ở một chuẩn mực cụ thể (BrowseComp).
◦
Cần xác minh hiệu suất tổng quát cho nhiều môi trường thông tin và loại nhiệm vụ khác nhau
◦
Cần nghiên cứu thêm về chi phí tính toán và khả năng mở rộng của thuật toán DUPO.
◦
Thiếu mô tả chi tiết về các phương pháp cụ thể và tác động của khởi động lạnh RFT
◦
Cần có giải thích thêm về các chi tiết cụ thể của kỹ thuật lấy mẫu cấu trúc và kỹ thuật ẩn thông tin.