Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này trình bày khuôn khổ Search-R1, tận dụng học tăng cường (RL) để cho phép mô hình ngôn ngữ quy mô lớn (LLM) tạo ra các truy vấn tìm kiếm và sử dụng kết quả tìm kiếm để suy luận trong quá trình suy luận thông qua truy xuất thời gian thực. Search-R1 tối ưu hóa đường dẫn suy luận LLM thông qua các tương tác truy xuất nhiều vòng và sử dụng kỹ thuật che dấu mã thông báo kết quả tìm kiếm và một hàm thưởng dựa trên kết quả đơn giản để học RL ổn định. Kết quả thử nghiệm trên bảy tập dữ liệu trả lời câu hỏi chứng minh rằng Search-R1 vượt trội hơn kỹ thuật RAG hiện có 41% trên mô hình Qwen2.5-7B và 20% trên mô hình Qwen2.5-3B. Hơn nữa, chúng tôi cung cấp những hiểu biết thực nghiệm về các phương pháp tối ưu hóa RL, lựa chọn LLM và động lực của độ dài kết quả tìm kiếm. Mã và các điểm kiểm tra mô hình được công khai.
Takeaways, Limitations
•
Takeaways:
◦
Một phương pháp mới được trình bày để nâng cao khả năng tìm kiếm của LLM bằng cách sử dụng học tăng cường.
◦
Chúng tôi chứng minh khả năng học RL mạnh mẽ và cải thiện hiệu suất thông qua các tương tác truy xuất đa dạng và che dấu mã thông báo.
◦
Khả năng khái quát hóa được xác minh thông qua kết quả thử nghiệm trên nhiều LLM và tập dữ liệu khác nhau.
◦
Hỗ trợ khả năng tái tạo và nghiên cứu tiếp theo thông qua mã mở và công bố mô hình.
•
Limitations:
◦
Kết quả thử nghiệm chỉ giới hạn ở một LLM và tập dữ liệu cụ thể. Cần có thêm các thử nghiệm trên phạm vi rộng hơn của LLM và tập dữ liệu.
◦
Hiệu suất tiềm ẩn có thể bị suy giảm do tính đơn giản của hàm thưởng dựa trên kết quả. Cần thiết kế hàm thưởng tinh vi hơn.
◦
Phụ thuộc vào đặc điểm của công cụ tìm kiếm. Cần so sánh ứng dụng và hiệu suất trên nhiều công cụ tìm kiếm khác nhau.