본 연구는 만성 결핵 자동 선별 검진을 향상시키기 위해 SIGLIP 인코더와 Gemma-3b 트랜스포머 디코더를 활용한 비전-언어 모델(VLM)을 제안합니다. 흉부 X선 이미지와 임상 데이터를 통합하여 수동 해석의 어려움을 해결하고, 특히 자원이 부족한 환경에서 진단의 일관성과 접근성을 향상시킵니다. VLM 아키텍처는 시각적 인코딩을 위한 비전 트랜스포머(ViT)와 환자 병력 및 치료 기록과 같은 임상 맥락을 처리하기 위한 트랜스포머 기반 텍스트 인코더를 결합합니다. 교차 모드 어텐션 메커니즘은 방사선 사진 특징과 텍스트 정보를 정렬하고, Gemma-3b 디코더는 포괄적인 진단 보고서를 생성합니다. 모델은 5백만 개의 짝을 이룬 의료 이미지와 텍스트를 사용하여 사전 훈련되었고, 10만 개의 만성 결핵 특이적 흉부 X선을 사용하여 미세 조정되었습니다. 모델은 섬유증, 석회화된 과립종 및 기관지확장증을 포함한 주요 만성 결핵 병리의 검출에 대해 높은 정밀도(94%)와 재현율(94%)을 보였습니다. AUC 점수는 0.93을 초과했고, IoU 값은 0.91을 초과하여 결핵 관련 이상을 감지하고 국한하는 데 효과적임을 검증했습니다. VLM은 방사선 사진 및 임상 데이터를 통합하여 실행 가능하고 맥락을 인식하는 통찰력을 제공하는 자동화된 만성 결핵 진단을 위한 강력하고 확장 가능한 솔루션을 제공합니다. 향후 연구는 미묘한 병리와 데이터 세트 편향을 해결하여 모델의 일반화 가능성을 향상시키고 다양한 인구와 의료 환경에서 공정한 성능을 보장할 것입니다.
시사점, 한계점
•
시사점:
◦
만성 결핵 자동 진단을 위한 효과적이고 확장 가능한 VLM 제시.
◦
흉부 X선 이미지와 임상 데이터 통합을 통한 진단 정확도 및 접근성 향상.
◦
높은 정밀도(94%), 재현율(94%), AUC(0.93 초과), IoU(0.91 초과) 달성.