만성 질환 치료를 위한 약물 복용의 중요성을 강조하며, 환자 비디오를 통해 약물 복용 순응도를 파악하는 LLaVA 기반 다중 모달 대규모 비전 언어 모델(LVLM)인 AdCare-VLM을 제안합니다. 결핵(TB) 환자 비디오로 구성된 자체 데이터셋을 활용하여 모델을 미세 조정하고, 의료 전문가가 레이블링한 LLM-TB-VQA 데이터셋을 통해 긍정, 부정, 모호한 복약 순응도 사례를 분석합니다. AdCare-VLM은 환자의 얼굴, 약물, 물 섭취, 복용 행위 등 시각적 특징과 캡션의 의학적 개념 간의 상관관계를 파악하여, 기존 모델보다 향상된 성능을 보입니다.