본 논문은 대규모 언어 모델(LLM)의 의료 분야 적용 시 임상 의사 결정에 중요한 정량적 추론 능력을 평가하기 위해 MedCalc-Eval이라는 새로운 벤치마크를 소개합니다. MedCalc-Eval은 700개 이상의 계산 과제를 포함하며, 방정식 기반 및 규칙 기반 채점 시스템을 아우릅니다. 또한, 강화 학습 환경인 MedCalc-Env를 개발하여 LLM의 성능 향상을 시도하고, Qwen2.5-32B 모델을 fine-tuning하여 MedCalc-Eval에서 SOTA 결과를 달성했습니다.