Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking Chest X-ray Diagnosis Models Across Multinational Datasets

Created by
  • Haebom

저자

Qinmei Xu, Yiheng Li, Xianghao Zhan, Ahmet Gorkem Er, Brittany Dashevsky, Chuanjun Xu, Mohammed Alawad, Mengya Yang, Liu Ya, Changsheng Zhou, Xiao Li, Haruka Itakura, Olivier Gevaert

개요

본 연구는 다국적 흉부 X선(CXR) 데이터셋을 사용하여 기초 모델(foundation models)과 기존 합성곱 신경망(CNNs)의 진단 성능 및 일반화 성능을 벤치마킹했습니다. 미국, 스페인, 인도, 베트남의 6개 공개 데이터셋과 중국 병원의 3개 비공개 데이터셋을 사용하여 37가지 표준화된 분류 작업에 대해 5개의 비전-언어 기초 모델과 3개의 CNN 기반 아키텍처 등 총 8개의 CXR 진단 모델을 평가했습니다. AUROC, AUPRC 및 기타 지표를 사용하여 공유 작업과 데이터셋별 작업 모두에 대한 성능을 평가한 결과, 기초 모델이 CNN보다 정확도와 작업 적용 범위 면에서 우수한 성능을 보였습니다. 특히, 지식 강화 프롬프트와 구조적 감독을 통합한 MAVL 모델이 공개 데이터셋(평균 AUROC: 0.82; AUPRC: 0.32)과 비공개 데이터셋(평균 AUROC: 0.95; AUPRC: 0.89) 모두에서 최고 성능을 달성했으며, 37개의 공개 작업 중 14개와 4개의 비공개 작업 중 3개에서 1위를 차지했습니다. 모든 모델은 소아 환자의 경우 성능이 저하되었으며, 성인의 평균 AUROC가 0.88 ± 0.18인 반면 소아는 0.57 ± 0.29로 감소했습니다 (p = 0.0202). 이러한 결과는 방사선 AI에서 구조적 감독 및 프롬프트 설계의 중요성을 강조하며, 향후 임상 배포를 위한 지리적 확장 및 앙상블 모델링 등의 방향을 제시합니다.

시사점, 한계점

시사점:
기초 모델이 CNN보다 흉부 X선 진단에서 더 높은 정확도와 더 넓은 작업 적용 범위를 보임.
지식 강화 프롬프트와 구조적 감독을 통합한 모델(MAVL)이 가장 우수한 성능을 보임.
방사선 AI에서 구조적 감독 및 프롬프트 설계의 중요성을 강조.
향후 지리적 확장 및 앙상블 모델링을 통한 임상 배포 가능성 제시.
한계점:
소아 환자의 경우 성능 저하 현상 관찰 (성인 대비 AUROC 감소).
평가 데이터셋의 지리적 다양성에 한계가 있을 수 있음 (미국, 스페인, 인도, 베트남, 중국).
모델의 일반화 성능 향상을 위해 추가 연구 필요.
👍