Để Giải quyết những hạn chế của các mô hình ngôn ngữ quy mô lớn (LLM), vốn có xu hướng tạo ra ảo giác hoặc phản hồi lỗi thời do kiến thức nội bộ tĩnh, bài báo này đề xuất một phương pháp Tạo tăng cường Truy xuất (RAG) dựa trên học tăng cường (RL) để nâng cao khả năng truy xuất và suy luận của mô hình. Để giải quyết những hạn chế của các phương pháp RAG hiện có, bao gồm tính không ổn định trong huấn luyện, thời gian suy luận đáng kể và chức năng hạn chế do chế độ truy vấn đơn, chúng tôi trình bày RAG-R1, một khuôn khổ huấn luyện mới được thiết kế để cho phép LLM sử dụng kiến thức nội bộ và bên ngoài một cách thích ứng trong quá trình suy luận. RAG-R1 mở rộng các quy trình tạo và truy xuất từ chế độ truy vấn đơn sang xử lý song song nhiều truy vấn, giảm thời gian suy luận và tăng cường chức năng của mô hình. Các thí nghiệm mở rộng trên bảy điểm chuẩn trả lời câu hỏi chứng minh rằng phương pháp được đề xuất vượt trội hơn mô hình cơ sở hiệu suất tốt nhất tới 13,2% và giảm thời gian suy luận 11,1%.