MedAgentsBench는 다단계 임상 추론, 진단 설정, 치료 계획 등을 필요로 하는 어려운 의료 질문에 초점을 맞춘 새로운 벤치마크입니다. 기존 의료 질문 응답 벤치마크에서 우수한 성능을 보이는 대규모 언어 모델(LLM)의 평가 및 차별화의 어려움을 해결하기 위해 고안되었습니다. 기존 평가의 세 가지 주요 한계점(단순 질문의 빈도, 일관성 없는 샘플링 및 평가 프로토콜, 성능, 비용, 추론 시간 간의 상호 작용 분석 부족)을 해결하기 위해 7개의 기존 의료 데이터셋을 활용합니다. 다양한 기본 모델과 추론 방법을 사용한 실험을 통해 DeepSeek R1과 OpenAI o3 모델이 복잡한 의료 추론 작업에서 뛰어난 성능을 보임을 보여주며, 검색 기반 에이전트 방법이 기존 방법에 비해 성능 대비 비용 측면에서 유망함을 확인했습니다. 복잡한 질문에 대한 모델 간의 상당한 성능 차이와 계산 제약 조건에 따른 최적 모델 선택을 제시하며, 벤치마크와 평가 프레임워크는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
기존 벤치마크의 한계를 극복하는 새로운 의료 질문 응답 벤치마크 MedAgentsBench 제시.
◦
복잡한 의료 추론 작업에서 DeepSeek R1과 OpenAI o3 모델의 우수한 성능 확인.