# MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs

### 저자

Zhan Qu, Michael Farber

### 💡 개요

본 논문은 환자의 문맥을 고려하고 지식 기반에 근거한 LLM의 의료 분야 추론 능력을 평가하기 위한 새로운 벤치마크인 MediEval을 제안합니다. MediEval은 MIMIC-IV EHR 데이터와 UMLS 등 의료 지식 기반을 결합하여 환자별 맥락에서 사실 및 반사실적 의료 진술을 생성하며, 이를 통해 LLM의 지식 근거 및 맥락 일관성을 평가합니다. 평가 결과, 기존 LLM들이 종종 발생하는 환각적 근거 생성 및 진실 반전과 같은 치명적인 오류 모드를 식별했으며, 이러한 위험을 완화하기 위해 반사실적 위험 인식 미세 조정(CoRFu) 기법을 제안하여 성능 및 안전성을 향상시켰습니다.

### 🔑 시사점 및 한계

- LLM의 의료 분야 적용 시 신뢰성과 안전성을 평가하는 데 있어 환자의 문맥과 지식 기반을 동시에 고려하는 평가 프레임워크의 중요성을 강조합니다.

- 환각적 지원 생성 및 진실 반전과 같은 LLM의 구체적인 실패 모드를 식별하고, 이를 해결하기 위한 CoRFu와 같은 효과적인 미세 조정 기법을 제시합니다.

- 본 연구에서 제안된 MediEval 벤치마크는 향후 의료 LLM의 개발 및 평가에 중요한 기반이 될 수 있습니다.

- MediEval 벤치마크의 구축 및 평가에 사용된 데이터셋의 특정(MIMIC-IV) 및 지식 기반(UMLS)의 제약으로 인해 일반화 가능성에 대한 추가 검증이 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2512.20822)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
