每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MedAgentGym:用于生物医学数据科学中以代码为中心的推理的可扩展代理训练环境

Created by
  • Haebom

作者

徐然、庄雨辰、钟一山、于悦、王子峰、唐相如、吴航、王梅迪、阮佩峰、杨冬涵、王涛、肖光华、刘鑫、杨嘉尔、谢阳、施文琪

大纲

MedAgentGym 是一个可扩展的交互式训练环境,旨在增强 LLM 代理基于编码的生物医学推理能力。它包含 12 个真实生物医学场景中 129 个类别的 72,413 个任务实例。每个任务都封装在一个可执行的沙盒环境中,该沙盒环境具有详细的任务规范、交互式反馈机制、可验证的答案注释以及可扩展的训练轨迹生成功能。对 29 个 LLM 进行的广泛基准测试表明,商业 LLM 和开源 LLM 在生物医学数据科学领域存在显著的性能差距。Med-Copilot 利用 MedAgentGym 中高效的多线程和多轮轨迹采样技术,分别实现了离线和在线强化学习 +43.02% 和 +45.28% 的性能提升,证明了 MedAgentGym 是一个高效的训练平台。此外,MedAgentGym 被定位为专有 LLM (GPT-4O) 的经济高效且隐私保护的替代方案。 MedAgentGym 通过提供具有全面基准和可访问、可扩展培训资源的统一执行环境,为开发用于高级生物医学数据科学的基于 LLM 的编码助手提供了统一的平台。

Takeaways,Limitations

Takeaways:
提供有效的训练环境,以提高 LLM 代理基于编码的生物医学推理能力。
提供基准,显示商业 LLM 和开源 LLM 之间的性能差距。
展示 Med-Copilot 的改进性能。
提供经济高效且保护隐私的 LLM 培训替代方案。
为开发基于 LLM 的高级生物医学数据科学编码助手提供集成平台。
Limitations:
论文中没有指定 Limitations。
👍