Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SFR-DeepResearch: Hướng tới học tăng cường hiệu quả cho các tác nhân đơn lẻ có khả năng suy luận tự chủ

Created by
  • Haebom

Tác giả

Xuân-Phi Nguyễn, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty

Phác thảo

Bài báo này tập trung vào việc phát triển một mô hình Nghiên cứu Sâu (DR) tự động dựa trên tác nhân đơn. Không giống như các hệ thống đa tác nhân hiện có, bài báo này trình bày một mô hình tự động, trong đó một tác nhân đơn lẻ tự động xác định hành động tiếp theo dựa trên tình huống, giảm thiểu việc thu thập dữ liệu web và tích hợp công cụ Python. Thay vì sử dụng các LLM được huấn luyện trước hoặc được điều chỉnh theo chỉ thị hiện có, chúng tôi đề xuất một phương pháp để nâng cao năng lực của tác nhân thông qua học tăng cường liên tục (RL) trên một mô hình được tối ưu hóa suy luận. Bằng cách áp dụng một công thức RL đơn giản sử dụng hoàn toàn dữ liệu tổng hợp cho nhiều LLM nguồn mở khác nhau, mô hình hiệu suất tốt nhất, SFR-DR-20B, đã đạt được mức tăng hiệu suất lên tới 28,7% trên điểm chuẩn của Humanity's Last Exam. Chúng tôi cũng trình bày phân tích thử nghiệm chuyên sâu về phương pháp luận được đề xuất.

Takeaways, Limitations

Takeaways:
Một phương pháp mới để phát triển các mô hình học sâu tự động dựa trên các tác nhân đơn lẻ được trình bày.
Một phương pháp hiệu quả để cải thiện năng lực của tác nhân trong khi vẫn duy trì khả năng lập luận thông qua học tăng cường liên tục được trình bày.
Chúng tôi chứng minh tính khả thi của công thức RL đơn giản chỉ sử dụng dữ liệu tổng hợp cho nhiều LLM nguồn mở khác nhau.
ĐạT được hiệu suất đáng kể trong bài kiểm tra chuẩn Humanity's Last Exam.
Limitations:
Vì được đào tạo chỉ bằng dữ liệu tổng hợp nên hiệu suất tổng quát hóa trên dữ liệu thực cần phải được xác minh.
Cần đánh giá hiệu suất theo các tiêu chuẩn khác ngoài Kỳ thi cuối cùng của loài người.
Mặc dù việc tích hợp công cụ thu thập dữ liệu web và Python đã được giảm thiểu, nhưng vẫn cần nghiên cứu thêm để xác định hiệu quả và khả năng mở rộng của nó trong môi trường nghiên cứu chuyên sâu thực tế.
Thiếu khả năng diễn giải quá trình suy luận phức tạp của các mô hình tác nhân đơn lẻ.
👍