MedAgentGym 是一个可扩展的交互式训练环境,旨在增强 LLM 代理基于编码的生物医学推理能力。它包含 12 个真实生物医学场景中 129 个类别的 72,413 个任务实例。每个任务都封装在一个可执行的沙盒环境中,该沙盒环境具有详细的任务规范、交互式反馈机制、可验证的答案注释以及可扩展的训练轨迹生成功能。对 29 个 LLM 进行的广泛基准测试表明,商业 LLM 和开源 LLM 在生物医学数据科学领域存在显著的性能差距。Med-Copilot 利用 MedAgentGym 中高效的多线程和多轮轨迹采样技术,分别实现了离线和在线强化学习 +43.02% 和 +45.28% 的性能提升,证明了 MedAgentGym 是一个高效的训练平台。此外,MedAgentGym 被定位为专有 LLM (GPT-4O) 的经济高效且隐私保护的替代方案。 MedAgentGym 通过提供具有全面基准和可访问、可扩展培训资源的统一执行环境,为开发用于高级生物医学数据科学的基于 LLM 的编码助手提供了统一的平台。