MedEBench1은 의료 영상에서 텍스트 기반 이미지 편집의 신뢰성을 평가하기 위한 벤치마크입니다. 70가지의 서로 다른 편집 작업과 13개의 해부학적 영역을 포함하는 1,182개의 임상적으로 큐레이션된 이미지-프롬프트 쌍으로 구성됩니다. 편집 정확도, 맥락 보존, 시각적 품질을 측정하는 임상적으로 기반한 평가 프레임워크와 세부적인 편집 설명 및 관심 영역(ROI) 마스크를 제공합니다. 또한 7개의 최첨단 모델을 비교 분석하여 일관된 오류 패턴을 밝히고, 모델 어텐션 맵과 ROI 마스크 간의 IoU를 활용한 진단 오류 분석 기법을 통해 잘못된 해부학적 영역에 집중하는 오류를 식별합니다. 이를 통해 더욱 신뢰할 수 있고 임상적으로 효과적인 텍스트 기반 의료 영상 편집 도구 개발의 기반을 마련합니다.