VocalAgent: Large Language Models for Vocal Health Diagnostics with Safety-Aware Evaluation
Created by
Haebom
저자
Yubin Kim, Taehan Kim, Wonjune Kang, Eugene Park, Joonsik Yoon, Dongjae Lee, Xin Liu, Daniel McDuff, Hyeonhoon Lee, Cynthia Breazeal, Hae Won Park
개요
VocalAgent는 음성 건강 진단을 위한 오디오 대규모 언어 모델(LLM)이다. 병원 환자들로부터 현장에서 수집한 세 가지 데이터셋으로 미세 조정된 Qwen-Audio-Chat을 활용하여 개발되었다. 음성 장애 진단 정확도에서 기존 최고 성능 모델보다 우수한 성능을 보이며, 안전성 평가, 다국어 성능 분석, 모달리티 제거 연구를 포함하는 다면적 평가 프레임워크를 통해 검증되었다. LLM 기반 접근 방식을 통해 건강 진단의 폭넓은 채택을 위한 확장 가능한 솔루션을 제공하며, 윤리적 및 기술적 검증의 중요성을 강조한다.
시사점, 한계점
•
시사점:
◦
음성 장애 진단에 있어 기존 방법보다 정확도가 높은 새로운 LLM 기반 솔루션 제공.
◦
의료 접근성이 낮은 지역에서의 음성 건강 관리 향상 가능성 제시.
◦
LLM 기반 접근 방식의 확장성을 통해 더 넓은 범위의 건강 진단에 적용 가능성 제시.
◦
안전성 평가, 다국어 성능 분석, 모달리티 제거 연구를 통한 견고한 모델 검증.
•
한계점:
◦
논문에서는 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 연구를 통해 실제 임상 환경에서의 성능 및 일반화 가능성, 데이터 편향 문제 해결 등에 대한 검증이 필요할 것으로 예상됨.