Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WhisperD: Dementia Speech Recognition and Filler Word Detection with Whisper

Created by
  • Haebom

저자

Emmanuel Akinrintoyo, Nadine Abdelhalim, Nicole Salomons

개요

본 논문은 치매 환자의 비정상적인 발화 패턴으로 인해 기존 Whisper 모델이 치매 환자의 음성을 정확하게 전사하지 못하는 문제를 해결하기 위해, DementiaBank 및 자체 데이터셋을 활용하여 Whisper 모델을 미세 조정했습니다. 미세 조정 과정에서 채움말(filler words)을 포함하여 채움말 포함율(FIR)과 F1 점수를 측정하였고, 그 결과 미세 조정된 모델이 기존 모델보다 월등히 높은 성능을 보였습니다. 특히 중간 크기 모델은 0.24의 WER(단어 오류율)을 달성하여 기존 연구보다 성능이 향상되었고, 새로운 데이터 및 발화 패턴에 대한 일반화 성능도 향상됨을 보였습니다.

시사점, 한계점

시사점:
기존 음성 인식 모델을 치매 환자 음성에 특화하여 성능을 향상시킬 수 있음을 보여줌.
치매 진단 및 보조 기술 개발에 중요한 도움을 제공할 수 있음.
미세 조정을 통해 WER 및 FIR, F1 score를 개선할 수 있음을 제시.
unseen data에 대한 일반화 성능 향상 가능성을 확인.
한계점:
사용된 데이터셋의 규모 및 다양성에 대한 구체적인 언급 부족.
다른 유형의 치매 또는 다양한 심각도의 치매에 대한 일반화 성능 평가 부족.
실제 임상 환경에서의 성능 평가 부족.
채움말 처리에 대한 자세한 분석 및 고찰 부족.
👍