[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

WebSailor: Điều hướng lý luận siêu phàm cho các tác nhân web

Created by
  • Haebom

Tác giả

Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Litu Ou, Jialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, Weizhou Shen, Junkai Zhang, Dingchu Zhang, Xixi Wu, Yong Jiang, Ming Yan, Pengjun Xie, Fei Huang, Jingren Chu

Phác thảo

Bài báo này nhằm mục đích khắc phục những hạn chế về nhận thức của con người trong việc đào tạo các mô hình ngôn ngữ quy mô lớn (LLM). Các hệ thống tác nhân độc quyền hiện có (ví dụ: DeepResearch) đã chứng minh hiệu suất siêu phàm trên các điểm chuẩn khám phá thông tin cực kỳ phức tạp như BrowseComp, một hiệu suất mà các mô hình nguồn mở không thể đạt được. Chúng tôi lập luận rằng chìa khóa thành công này nằm ở các mẫu suy luận tinh vi giúp giảm thiểu một cách có hệ thống sự không chắc chắn cực độ khi khám phá các môi trường thông tin rộng lớn. Dựa trên hiểu biết sâu sắc này, chúng tôi trình bày WebSailor, một phương pháp sau đào tạo được thiết kế để truyền tải khả năng quan trọng này. WebSailor bao gồm việc tạo ra các tác vụ có độ không chắc chắn cao mới thông qua lấy mẫu có cấu trúc và ẩn thông tin, khởi động lạnh RFT và thuật toán đào tạo học tăng cường tác nhân hiệu quả, Tối ưu hóa chính sách lấy mẫu trùng lặp (DUPO). Với đường ống tích hợp này, WebSailor thu hẹp khoảng cách hiệu suất bằng cách vượt trội hơn tất cả các tác nhân nguồn mở trong các tác vụ khám phá thông tin phức tạp và phù hợp với hiệu suất của các tác nhân độc quyền.

Takeaways, Limitations

Takeaways:
Một phương pháp đào tạo sau mới để cải thiện khả năng tìm kiếm thông tin của LLM nguồn mở
Có thể thu hẹp khoảng cách hiệu suất giữa các tác nhân độc quyền và nguồn mở
Một cách tiếp cận mới để cải thiện khả năng lý luận trong những tình huống có độ không chắc chắn cao
Trình bày khả năng học tăng cường tác nhân hiệu quả thông qua thuật toán DUPO
Limitations:
Hiệu suất của WebSailor có thể bị giới hạn ở một chuẩn mực cụ thể (BrowseComp).
Cần xác minh hiệu suất tổng quát cho nhiều môi trường thông tin và loại nhiệm vụ khác nhau
Cần nghiên cứu thêm về chi phí tính toán và khả năng mở rộng của thuật toán DUPO.
Thiếu mô tả chi tiết về các phương pháp cụ thể và tác động của khởi động lạnh RFT
Cần có giải thích thêm về các chi tiết cụ thể của kỹ thuật lấy mẫu cấu trúc và kỹ thuật ẩn thông tin.
👍