Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science

Created by
  • Haebom

저자

Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi

개요

MedAgentGym은 LLM 에이전트의 코딩 기반 생물의학적 추론 능력을 향상시키기 위해 설계된 확장 가능하고 상호 작용적인 훈련 환경이다. 12개의 실제 생물의학적 시나리오에서 파생된 129개 카테고리, 72,413개의 태스크 인스턴스로 구성된다. 각 태스크는 실행 가능한 샌드박스 환경 내에 캡슐화되어 있으며, 상세한 태스크 사양, 상호 작용 피드백 메커니즘, 검증 가능한 정답 어노테이션 및 확장 가능한 훈련 궤적 생성을 특징으로 한다. 29개의 LLM에 대한 광범위한 벤치마킹을 통해 상업용 LLM과 오픈 소스 LLM 간의 생물의학 데이터 과학 성능 격차가 상당함을 보여주었다. MedAgentGym에서 효율적인 멀티 스레드 및 멀티 턴 궤적 샘플링을 활용하여 Med-Copilot는 오프라인 및 온라인 강화 학습으로부터 각각 +43.02% 및 +45.28%의 성능 향상을 달성했으며, MedAgentGym이 효과적인 훈련장임을 입증했다. 또한, MedAgentGym은 비용 효율적이고 개인 정보 보호를 유지하면서 독점 LLM (gpt-4o)과 경쟁할 수 있는 대안으로 자리매김했다. MedAgentGym은 포괄적인 벤치마크와 접근 가능하고 확장 가능한 훈련 리소스를 갖춘 통합 실행 환경을 제공함으로써 고급 생물의학 데이터 과학을 위한 LLM 기반 코딩 어시스턴트 개발을 위한 통합 플랫폼을 제공한다.

시사점, 한계점

시사점:
LLM 에이전트의 코딩 기반 생물의학적 추론 능력 향상을 위한 효과적인 훈련 환경 제공.
상업용 LLM과 오픈 소스 LLM 간의 성능 격차를 보여주는 벤치마크 제공.
Med-Copilot의 성능 향상 입증.
비용 효율적이고 개인 정보 보호를 유지하는 LLM 훈련 대안 제시.
고급 생물의학 데이터 과학을 위한 LLM 기반 코딩 어시스턴트 개발을 위한 통합 플랫폼 제공.
한계점:
논문에 명시된 한계점은 없음.
👍