Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data?

작성자

Haebom

카테고리

비어 있음

저자

Che Liu, Zhongwei Wan, Haozhe Wang, Yinda Chen, Talha Qaiser, Chen Jin, Fariba Yousefi, Nikolay Burlutskiy, Rossella Arcucci

개요

본 논문은 의료 영상 이해를 위한 제로샷 학습에 있어 의료 비전-언어 사전 학습(MedVLP) 모델이 합성 데이터만을 사용하여 훈련될 수 있는지를 연구합니다. 기존 MedVLP 모델 훈련에는 양질의 대규모 이미지-텍스트 쌍 데이터가 필요하지만 의료 분야에서는 이러한 데이터가 부족합니다. 본 연구에서는 기존의 생성 모델을 이용하여 합성 방사선 보고서와 흉부 X선(CXR) 이미지를 생성하고, 이를 바탕으로 다양하고 고품질의 합성 데이터셋을 구축하는 자동화 파이프라인을 제안합니다. 실험 결과, 합성 데이터로만 학습된 MedVLP 모델은 실제 데이터로 학습된 모델보다 제로샷 분류에서 평균 AUC 기준 3.8% 높은 성능을 보였으며, 합성 및 실제 데이터를 함께 사용했을 때는 9.07% 더 향상된 성능을 보였습니다. 또한, 합성 데이터 또는 혼합 데이터로 학습된 MedVLP 모델은 제로샷 그라운딩, 미세 조정 분류 및 분할 작업에서도 실제 데이터로 학습된 모델보다 우수한 성능을 보였습니다. 이는 잘 설계된 합성 데이터로 학습된 MedVLP 모델이 저품질 샘플과 긴 꼬리 분포로 인해 제한될 수 있는 실제 데이터셋으로 학습된 모델보다 우수한 성능을 낼 수 있음을 시사합니다.