GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis
Created by
Haebom
Category
Empty
저자
Bo Liu, Ke Zou, Liming Zhan, Zexin Lu, Xiaoyu Dong, Yidi Chen, Chengqiang Xie, Jiannong Cao, Xiao-Ming Wu, Huazhu Fu
개요
본 논문은 의료 영상 질의응답(Med-VQA) 시스템 개발의 어려움을 해결하기 위해, 흉부 X선 진단을 위한 대규모, 근거 기반, 설명 가능한 Med-VQA 벤치마크인 GEMeX를 제시합니다. 기존 Med-VQA 데이터셋의 한계점인 답변에 대한 시각적 및 텍스트적 설명 부족과 질문 형식의 제한성을 극복하고자, GEMeX는 다양한 질문 유형(개방형, 폐쇄형, 단일 선택, 다중 선택)과 시각적 및 텍스트적 설명 메커니즘을 제공합니다. 151,025개의 이미지와 1,605,575개의 질문을 포함하는 GEMeX는 현재 가장 큰 흉부 X선 VQA 데이터셋이며, 12개의 대표적인 거대 언어-비전 모델(LLVM)의 평가 결과는 GEMeX의 복잡성을 보여줍니다. 논문에서는 GEMeX 학습 세트를 사용하여 기존 LLVM을 미세 조정함으로써 성능 향상을 보이는 강력한 모델을 제안합니다. GEMeX는 https://www.med-vqa.com/GEMeX 에서 이용 가능합니다.