Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis

Created by
  • Haebom
Category
Empty

저자

Bo Liu, Ke Zou, Liming Zhan, Zexin Lu, Xiaoyu Dong, Yidi Chen, Chengqiang Xie, Jiannong Cao, Xiao-Ming Wu, Huazhu Fu

개요

본 논문은 의료 영상 질의응답(Med-VQA) 시스템 개발의 어려움을 해결하기 위해, 흉부 X선 진단을 위한 대규모, 근거 기반, 설명 가능한 Med-VQA 벤치마크인 GEMeX를 제시합니다. 기존 Med-VQA 데이터셋의 한계점인 답변에 대한 시각적 및 텍스트적 설명 부족과 질문 형식의 제한성을 극복하고자, GEMeX는 다양한 질문 유형(개방형, 폐쇄형, 단일 선택, 다중 선택)과 시각적 및 텍스트적 설명 메커니즘을 제공합니다. 151,025개의 이미지와 1,605,575개의 질문을 포함하는 GEMeX는 현재 가장 큰 흉부 X선 VQA 데이터셋이며, 12개의 대표적인 거대 언어-비전 모델(LLVM)의 평가 결과는 GEMeX의 복잡성을 보여줍니다. 논문에서는 GEMeX 학습 세트를 사용하여 기존 LLVM을 미세 조정함으로써 성능 향상을 보이는 강력한 모델을 제안합니다. GEMeX는 https://www.med-vqa.com/GEMeX 에서 이용 가능합니다.

시사점, 한계점

시사점:
기존 Med-VQA 데이터셋의 한계점을 극복하는 대규모, 설명 가능한 흉부 X선 VQA 벤치마크 GEMeX를 제시.
다양한 질문 유형과 시각적, 텍스트적 설명 메커니즘을 통해 Med-VQA 시스템의 신뢰성 및 사용자 친화성 향상에 기여.
GEMeX를 활용한 LLVM의 성능 평가를 통해 Med-VQA 분야의 연구 발전에 기여.
GEMeX 데이터셋을 공개하여 Med-VQA 연구의 활성화에 기여.
한계점:
현재 흉부 X선 영상에만 국한된 데이터셋임. 다른 의료 영상 모달리티에 대한 확장 필요.
제안된 모델의 일반화 성능에 대한 추가적인 연구 필요.
GEMeX의 규모가 크지만, 실제 임상 환경의 다양성을 완벽하게 반영하지 못할 수 있음.
👍