El diagnóstico preciso de modelos de lenguaje médico a gran escala se ve obstaculizado por lagunas de conocimiento y alucinaciones. Si bien los métodos de recuperación y aumento de herramientas son útiles, su impacto se ve limitado por la escasa utilización del conocimiento externo y la escasa trazabilidad de la inferencia de retroalimentación. Para abordar estos desafíos, este estudio presenta Deep-DxSearch, un sistema agente-RAG entrenado de extremo a extremo que utiliza aprendizaje por refuerzo (RL). Este sistema aplica inferencia rastreable aumentada por recuperación al diagnóstico médico. Deep-DxSearch construye un gran corpus de recuperación médica que contiene registros de pacientes y fuentes confiables de conocimiento médico para respaldar la inferencia consciente de la recuperación en escenarios de diagnóstico. Es crucial desarrollar la política agente-RAG utilizando RL en datos a gran escala, con LLM como agente central y el corpus de recuperación como entorno, y recompensas personalizadas para formato, recuperación, estructura de inferencia y precisión diagnóstica. Los resultados experimentales demuestran que el marco de entrenamiento integral de agente-RAG supera consistentemente a los enfoques de RAG con ingeniería rápida y sin entrenamiento en múltiples centros de datos. Tras el entrenamiento, Deep-DxSearch mejoró significativamente la precisión diagnóstica en el diagnóstico de enfermedades comunes y raras, superando a robustos puntos de referencia de diagnóstico como GPT-4o, DeepSeek-R1 y otros marcos específicos para la atención médica, tanto en entornos de distribución como fuera de ella. Además, los estudios de ablación sobre el diseño de recompensas y los componentes del corpus de búsqueda confirmaron su importante papel al destacar la singularidad y la eficacia del enfoque en comparación con las implementaciones tradicionales. Finalmente, los estudios de caso y los análisis de interpretabilidad destacaron las mejoras en la política diagnóstica de Deep-DxSearch, lo que proporciona una visión más profunda de sus mejoras de rendimiento y ayuda a los profesionales clínicos a proporcionar diagnósticos preliminares más fiables y precisos.