Sign In

PaliGemma-CXR: A Multi-task Multimodal Model for TB Chest X-ray Interpretation

Created by
  • Haebom
Category
Empty

저자

Denis Musinguzi, Andrew Katumba, Sudi Murindanyi

개요

결핵(TB) 진단을 위한 흉부 X선 판독의 어려움을 해결하기 위해, 다중 작업을 수행하는 다중 모달 모델 PaliGemma-CXR을 제안합니다. 이 모델은 흉부 X선 이미지를 이용하여 결핵 진단, 객체 탐지, 분할, 보고서 생성, 그리고 시각적 질문응답(VQA) 등 다양한 작업을 수행합니다. 기존의 작업별 모델 방식과 달리, 작업 간 상호 의존성을 활용하여 성능 향상을 도모하며, 다중 모달 데이터 부족, 데이터 불균형, 네거티브 트랜스퍼 등의 문제를 해결하기 위해 데이터 샘플링 기법을 적용했습니다. 실험 결과, 결핵 진단 정확도 90.32%, VQA 정확도 98.95%, 보고서 생성 BLEU 점수 41.3, 객체 탐지 및 분할 mAP 각각 19.4 및 16.0을 달성하여 다중 작업 모델의 효과를 보여주었습니다.

시사점, 한계점

시사점:
다중 작업 다중 모달 모델을 이용하여 흉부 X선 이미지 분석의 효율성을 높일 수 있음을 보여줌.
작업 간 상호 의존성을 활용하여 개별 작업 성능 향상 가능성 제시.
결핵 진단 및 관련 정보 추출을 위한 자동화 시스템 구축 가능성 제시.
한계점:
객체 탐지 및 분할의 mAP가 상대적으로 낮음 (19.4 및 16.0).
다중 모달 데이터 부족 및 데이터 불균형 문제를 완전히 해결하지 못했을 가능성.
실제 임상 환경에서의 일반화 성능에 대한 추가 검증 필요.
BLEU 점수 41.3은 보고서 생성 측면에서 추가적인 개선이 필요함을 시사.
👍