Bài báo này tập trung vào việc phát triển một mô hình Nghiên cứu Sâu (DR) tự động dựa trên tác nhân đơn. Không giống như các hệ thống đa tác nhân hiện có, bài báo này trình bày một mô hình tự động, trong đó một tác nhân đơn lẻ tự động xác định hành động tiếp theo dựa trên tình huống, giảm thiểu việc thu thập dữ liệu web và tích hợp công cụ Python. Thay vì sử dụng các LLM được huấn luyện trước hoặc được điều chỉnh theo chỉ thị hiện có, chúng tôi đề xuất một phương pháp để nâng cao năng lực của tác nhân thông qua học tăng cường liên tục (RL) trên một mô hình được tối ưu hóa suy luận. Bằng cách áp dụng một công thức RL đơn giản sử dụng hoàn toàn dữ liệu tổng hợp cho nhiều LLM nguồn mở khác nhau, mô hình hiệu suất tốt nhất, SFR-DR-20B, đã đạt được mức tăng hiệu suất lên tới 28,7% trên điểm chuẩn của Humanity's Last Exam. Chúng tôi cũng trình bày phân tích thử nghiệm chuyên sâu về phương pháp luận được đề xuất.