본 연구는 SIGLIP과 Gemma-3b 아키텍처를 활용한 비전-언어 모델(VLM)을 이용하여 급성 결핵(TB) 자동 선별검사를 수행하는 방법을 제시합니다. 흉부 X선 이미지와 임상 기록을 통합하여 특히 자원이 부족한 환경에서 진단 정확도와 효율성을 높이는 것을 목표로 합니다. VLM은 흉부 X선의 시각적 데이터와 임상적 맥락을 결합하여 상세하고 맥락을 고려한 진단 보고서를 생성합니다. SIGLIP는 시각적 인코딩에, Gemma-3b는 디코딩에 사용되어 급성 TB 특이 병리 및 임상적 통찰력을 효과적으로 표현합니다. 실험 결과, 폐렴, 공동, 결절과 같은 주요 급성 TB 병리는 높은 정밀도(97%)와 재현율(96%)로 검출되었습니다. 모델은 강력한 공간적 위치 파악 기능과 TB 양성 사례 구별의 견고성을 보여주어 급성 TB 진단에 신뢰할 수 있는 도구임을 입증했습니다. VLM의 다중 모달 기능은 방사선 전문의에 대한 의존도를 줄여 급성 TB 선별 검사를 위한 확장 가능한 솔루션을 제공합니다. 향후 연구는 미묘한 병리의 검출 개선과 데이터셋 편향 해결에 중점을 두어 다양한 글로벌 의료 환경에서의 일반화 및 적용을 강화할 것입니다.