MLlm-DR: Towards Explainable Depression Recognition with MultiModal Large Language Models
Created by
Haebom
저자
Wei Zhang, Juan Chen, En Zhu, Wenhong Cheng, YunPeng Li, Yanbo J. Wang
개요
본 논문은 다중 모달 정보(면접 영상)를 분석하여 우울증 점수를 예측하는 자동화된 우울증 진단 시스템을 제안합니다. 기존 연구들은 우울증 점수 산정 과정에 대한 설명이 부족하여 임상 현장 적용에 어려움이 있었습니다. 본 연구는 다중 모달 데이터를 처리할 수 있는 대규모 언어 모델(MLlm-DR)을 제시하여 이 문제를 해결합니다. MLlm-DR은 소규모 LLM과 경량 쿼리 모듈(LQ-former)을 통합하여 우울증 점수와 그에 대한 근거를 생성합니다. 강건한 학습 데이터셋을 구축하여 도메인 특화 작업에 대한 논리적 추론 능력을 향상시켰으며, LQ-former는 음성 및 시각 데이터에서 우울증 관련 특징을 추출하여 다중 모달 정보 처리 능력을 강화합니다. CMDC와 E-DAIC-WOZ 두 개의 벤치마크 데이터셋에서 최첨단 성능을 달성하여 효과와 우수성을 입증했습니다.
시사점, 한계점
•
시사점:
◦
다중 모달 정보를 활용한 설명 가능한 우울증 진단 시스템을 제시함으로써 임상 현장 적용 가능성을 높였습니다.
◦
소규모 LLM과 경량 쿼리 모듈을 통합하여 효율성과 성능을 동시에 확보했습니다.
◦
두 개의 벤치마크 데이터셋에서 최첨단 성능을 달성하여 모델의 우수성을 검증했습니다.
•
한계점:
◦
구축된 학습 데이터셋의 크기와 다양성에 대한 자세한 설명이 부족합니다.
◦
다른 다중 모달 우울증 진단 모델과의 비교 분석이 더욱 상세하게 이루어질 필요가 있습니다.