VocalAgent: Large Language Models for Vocal Health Diagnostics with Safety-Aware Evaluation
Created by
Haebom
저자
Yubin Kim, Taehan Kim, Wonjune Kang, Eugene Park, Joonsik Yoon, Dongjae Lee, Xin Liu, Daniel McDuff, Hyeonhoon Lee, Cynthia Breazeal, Hae Won Park
개요
본 논문은 음성 건강 진단을 위해 오디오 대규모 언어 모델(LLM)인 VocalAgent를 소개합니다. 병원 환자로부터 수집한 세 개의 데이터셋으로 fine-tuning된 Qwen-Audio-Chat을 활용하며, 진단 편향 완화를 위한 안전성 평가, 교차 언어 성능 분석, 모달리티 제거 연구를 포함하는 다면적인 평가 프레임워크를 제시합니다. VocalAgent는 최첨단 기준선보다 음성 장애 분류에서 우수한 정확도를 보입니다.
시사점, 한계점
•
LLM 기반의 방법론은 건강 진단의 광범위한 적용을 위한 확장 가능한 솔루션을 제공합니다.