Cet article vise à réaliser une recherche approfondie (RA) à l'aide d'un modèle mono-agent autonome. Contrairement aux systèmes multi-agents existants, nous proposons un modèle dans lequel un agent unique détermine dynamiquement sa prochaine action en fonction de la situation, minimisant ainsi l'exploration web et l'intégration d'outils Python. Au lieu d'utiliser des LLM pré-entraînés ou dirigés conventionnels, nous proposons une méthode pour améliorer les performances des agents en appliquant l'apprentissage par renforcement continu (RL) à un modèle optimisé par inférence. Nous avons mené des expériences en appliquant une recette RL simple utilisant des données entièrement synthétiques à divers LLM open source, et le modèle SFR-DR-20B a obtenu des performances allant jusqu'à 28,7 % au benchmark Humanity's Last Exam.