Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AdCare-VLM: Towards a Unified and Pre-aligned Latent Representation for Healthcare Video Understanding

Created by
  • Haebom
Category
Empty

저자

Md Asaduzzaman Jabin, Hanqi Jiang, Yiwei Li, Patrick Kaggwa, Eugene Douglass, Juliet N. Sekandi, Tianming Liu

개요

만성 질환 치료를 위한 약물 복용 순응도 향상을 목표로 하는 연구입니다. 환자 비디오를 통해 약물 복용 순응도 관련 시각적 질의응답 (VQA)을 용이하게 하기 위해, LLaVA 기반의 멀티모달 대형 비전 언어 모델 (LVLM)인 AdCare-VLM을 제안합니다. TB(결핵) 환자 약물 복용 모니터링 비디오 806개로 구성된 사설 데이터셋을 사용하여 모델을 미세 조정하고, 긍정, 부정, 모호한 사례를 포함하는 LLM-TB-VQA 데이터셋을 제시합니다. AdCare-VLM은 환자 얼굴, 약물, 물 섭취, 복용 행위와 같은 시각적 특징과 캡션의 관련 의료 개념 간의 상관관계를 파악합니다. 실험 결과는 LLaVA-V1.5 및 Chat-UniVi와 같은 PEFT 기반 VLM 모델보다 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
AdCare-VLM은 약물 복용 순응도 VQA에서 기존 모델 대비 향상된 성능을 보였습니다.
TB 환자 약물 복용 모니터링 비디오를 활용한 데이터셋 구축은 의미있는 성과입니다.
시각적 특징과 의료 개념 간의 상관관계 파악을 통해 모델의 해석 가능성을 높였습니다.
한계점:
논문 내 한계점에 대한 직접적인 언급은 없음. (하지만, 연구의 일반화 가능성, 다른 만성 질환으로의 확장 가능성 등은 추후 연구 과제일 수 있음)
👍