Le diagnostic précis des modèles de langage médical à grande échelle est entravé par des lacunes dans les connaissances et des hallucinations. Si les méthodes de récupération et d'augmentation des outils sont utiles, leur impact est limité par une faible utilisation des connaissances externes et une faible traçabilité de l'inférence par rétroaction. Pour relever ces défis, cette étude présente Deep-DxSearch, un système agent-RAG entraîné de bout en bout utilisant l'apprentissage par renforcement (RL). Ce système applique une inférence traçable augmentée par récupération au diagnostic médical. Deep-DxSearch construit un vaste corpus de récupération médicale contenant les dossiers des patients et des sources de connaissances médicales fiables afin de soutenir l'inférence tenant compte de la récupération dans tous les scénarios de diagnostic. Il est crucial de faire évoluer la politique agent-RAG en utilisant l'RL sur des données à grande échelle, avec le LLM comme agent principal et le corpus de récupération comme environnement, et en adaptant les récompenses au format, à la récupération, à la structure d'inférence et à la précision du diagnostic. Les résultats expérimentaux démontrent que le cadre d'entraînement agent-RAG de bout en bout surpasse systématiquement les approches RAG par apprentissage automatique et sans formation dans plusieurs centres de données. Après la formation, Deep-DxSearch a considérablement amélioré la précision diagnostique des maladies courantes et rares, surpassant des références diagnostiques robustes telles que GPT-4o, DeepSeek-R1 et d'autres cadres spécifiques aux soins de santé, tant en distribution qu'hors distribution. De plus, des études d'ablation sur la conception des récompenses et les composants du corpus de recherche ont confirmé leur rôle important dans la mise en évidence de l'unicité et de l'efficacité de l'approche par rapport aux implémentations traditionnelles. Enfin, des études de cas et des analyses d'interprétabilité ont mis en évidence les améliorations apportées à la politique diagnostique de Deep-DxSearch, fournissant un aperçu plus approfondi de ses gains de performance et aidant les cliniciens à fournir des diagnostics préliminaires plus fiables et plus précis.