Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MedAgentGym: Un entorno escalable de entrenamiento agéntico para el razonamiento centrado en código en la ciencia de datos biomédicos

Created by
  • Haebom

Autor

Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi

Describir

MedAgentGym es un entorno de entrenamiento escalable e interactivo diseñado para mejorar las capacidades de razonamiento biomédico basado en codificación de los agentes LLM. Consta de 72.413 instancias de tareas en 129 categorías derivadas de 12 escenarios biomédicos reales. Cada tarea se encapsula en un entorno sandbox ejecutable, con especificaciones detalladas, mecanismos interactivos de retroalimentación, anotaciones de respuestas verificables y generación escalable de trayectorias de entrenamiento. Un exhaustivo análisis comparativo de 29 LLM reveló una brecha significativa de rendimiento entre los LLM comerciales y los de código abierto en ciencia de datos biomédicos. Aprovechando el eficiente muestreo de trayectorias multihilo y multivuelta en MedAgentGym, Med-Copilot logró mejoras de rendimiento del +43,02 % y del +45,28 % en el aprendizaje de refuerzo en línea y fuera de línea, respectivamente, lo que demuestra que MedAgentGym es una plataforma de entrenamiento eficaz. Además, MedAgentGym se posiciona como una alternativa rentable y que preserva la privacidad a los LLM propietarios (gpt-4o). MedAgentGym proporciona una plataforma unificada para el desarrollo de asistentes de codificación basados ​​en LLM para la ciencia de datos biomédicos avanzados, proporcionando un entorno de ejecución unificado con benchmarks completos y recursos de formación accesibles y escalables.

Takeaways, Limitations

Takeaways:
Proporcionar un entorno de capacitación eficaz para mejorar las capacidades de razonamiento biomédico basado en codificación de los agentes LLM.
Proporciona puntos de referencia que muestran la brecha de rendimiento entre los LLM comerciales y los LLM de código abierto.
Demostración de un rendimiento mejorado de Med-Copilot.
Ofrecer alternativas de formación LLM rentables y que preserven la privacidad.
Proporcionar una plataforma integrada para desarrollar asistentes de codificación basados ​​en LLM para la ciencia de datos biomédicos avanzados.
Limitations:
No se especifica Limitations en el documento.
👍