만성 질환 치료를 위한 약물 복용 순응도 향상을 목표로 하는 연구입니다. 환자 비디오를 통해 약물 복용 순응도 관련 시각적 질의응답 (VQA)을 용이하게 하기 위해, LLaVA 기반의 멀티모달 대형 비전 언어 모델 (LVLM)인 AdCare-VLM을 제안합니다. TB(결핵) 환자 약물 복용 모니터링 비디오 806개로 구성된 사설 데이터셋을 사용하여 모델을 미세 조정하고, 긍정, 부정, 모호한 사례를 포함하는 LLM-TB-VQA 데이터셋을 제시합니다. AdCare-VLM은 환자 얼굴, 약물, 물 섭취, 복용 행위와 같은 시각적 특징과 캡션의 관련 의료 개념 간의 상관관계를 파악합니다. 실험 결과는 LLaVA-V1.5 및 Chat-UniVi와 같은 PEFT 기반 VLM 모델보다 성능이 우수함을 보여줍니다.