Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Capacitación integral del sistema RAG de Agentic para un razonamiento de diagnóstico trazable

Created by
  • Haebom

Autor

Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

Describir

El diagnóstico preciso de modelos de lenguaje médico a gran escala se ve obstaculizado por lagunas de conocimiento y alucinaciones. Si bien los métodos de recuperación y aumento de herramientas son útiles, su impacto se ve limitado por la escasa utilización del conocimiento externo y la escasa trazabilidad de la inferencia de retroalimentación. Para abordar estos desafíos, este estudio presenta Deep-DxSearch, un sistema agente-RAG entrenado de extremo a extremo que utiliza aprendizaje por refuerzo (RL). Este sistema aplica inferencia rastreable aumentada por recuperación al diagnóstico médico. Deep-DxSearch construye un gran corpus de recuperación médica que contiene registros de pacientes y fuentes confiables de conocimiento médico para respaldar la inferencia consciente de la recuperación en escenarios de diagnóstico. Es crucial desarrollar la política agente-RAG utilizando RL en datos a gran escala, con LLM como agente central y el corpus de recuperación como entorno, y recompensas personalizadas para formato, recuperación, estructura de inferencia y precisión diagnóstica. Los resultados experimentales demuestran que el marco de entrenamiento integral de agente-RAG supera consistentemente a los enfoques de RAG con ingeniería rápida y sin entrenamiento en múltiples centros de datos. Tras el entrenamiento, Deep-DxSearch mejoró significativamente la precisión diagnóstica en el diagnóstico de enfermedades comunes y raras, superando a robustos puntos de referencia de diagnóstico como GPT-4o, DeepSeek-R1 y otros marcos específicos para la atención médica, tanto en entornos de distribución como fuera de ella. Además, los estudios de ablación sobre el diseño de recompensas y los componentes del corpus de búsqueda confirmaron su importante papel al destacar la singularidad y la eficacia del enfoque en comparación con las implementaciones tradicionales. Finalmente, los estudios de caso y los análisis de interpretabilidad destacaron las mejoras en la política diagnóstica de Deep-DxSearch, lo que proporciona una visión más profunda de sus mejoras de rendimiento y ayuda a los profesionales clínicos a proporcionar diagnósticos preliminares más fiables y precisos.

Takeaways, Limitations

Takeaways:
Hemos mejorado significativamente la precisión del diagnóstico médico a través del sistema del agente RAG basado en el aprendizaje de refuerzo de extremo a extremo.
Demostró un rendimiento que superó los modelos de última generación existentes, como GPT-4o y DeepSeek-R1.
Ha demostrado un rendimiento excelente tanto en entornos de distribución como de distribución externa y ha demostrado ser eficaz en el diagnóstico de enfermedades comunes y raras.
Identificamos la importancia del diseño de recompensas y del corpus de recuperación, sugiriendo futuras direcciones de investigación.
Los estudios de casos y los análisis de interpretabilidad le ayudan a comprender el proceso de toma de decisiones del modelo.
Limitations:
La información disponible actualmente no proporciona información específica sobre el tamaño de los datos de entrenamiento de Deep-DxSearch, el tiempo de entrenamiento y el consumo de recursos computacionales.
Se necesitan evaluaciones y validaciones de desempeño adicionales en entornos clínicos reales.
Puede que haya soluciones al problema de alucinaciones del modelo y margen para seguir mejorando.
Es necesario tener en cuenta las cuestiones de accesibilidad y privacidad relacionadas con los datos médicos a gran escala.
👍