CareMedEval은 생의학 분야의 비판적 평가와 추론 작업을 위해 설계된 새로운 데이터셋입니다. 프랑스 의대생의 실제 시험에서 파생된 534개의 질문과 37개의 과학 논문을 기반으로 합니다. 기존 벤치마크와 달리, CareMedEval은 과학 논문에 기반한 비판적 독해 및 추론을 명시적으로 평가합니다. 다양한 맥락 조건에서 최첨단 일반 및 생의학 전문 LLM을 벤치마킹한 결과, 모델들이 어려운 과제에 직면했으며, 중간 추론 토큰을 생성하는 것이 결과를 상당히 향상시키지만, 연구의 한계점 및 통계 분석에 대한 질문에 어려움을 겪는 것으로 나타났습니다. CareMedEval은 현재 LLM의 한계를 드러내고 비판적 평가에 대한 자동 지원 개발의 길을 열어주는 도전적인 벤치마크를 제공합니다.