Sign In

A Multi-modal Approach to Dysarthria Detection and Severity Assessment Using Speech and Text Information

Created by
  • Haebom
Category
Empty

저자

M Anuprabha, Krishna Gurugubelli, V Kesavaraj, Anil Kumar Vuppala

개요

본 논문은 음성 장애인인 구어 장애의 자동 탐지 및 중증도 평가를 위한 새로운 접근 방식을 제시합니다. 기존 연구가 주로 음성 모달리티에 집중한 것과 달리, 본 연구는 음성 및 텍스트 모달리티를 모두 활용합니다. 교차 어텐션 메커니즘을 사용하여 음성 및 텍스트 표현 간의 음향 및 언어적 유사성을 학습하고, 다양한 중증도 수준에서의 발음 편차를 평가하여 구어 장애 탐지 및 중증도 평가의 정확도를 향상시킵니다. UA-Speech 구어 장애 데이터베이스를 사용하여 실험을 수행한 결과, 화자 의존 및 독립 설정, 미등장 및 등장 단어 설정에서 각각 99.53%, 93.20%의 탐지 정확도와 98.12%, 51.97%의 중증도 평가 정확도를 달성했습니다. 텍스트 정보 통합을 통해 참조 언어 지식을 제공하여 더욱 강력한 구어 장애 탐지 및 평가 프레임워크를 개발하여 효과적인 진단으로 이어질 수 있음을 시사합니다.

시사점, 한계점

시사점:
음성과 텍스트 모달리티를 통합하여 구어 장애 탐지 및 중증도 평가의 정확도 향상.
교차 어텐션 메커니즘을 활용한 효과적인 발음 편차 분석.
화자 의존 및 독립적인 설정에서 높은 정확도 달성.
더욱 효과적인 구어 장애 진단 및 치료 개선 가능성 제시.
한계점:
UA-Speech 데이터베이스에 대한 의존성. 다른 데이터베이스에서의 일반화 성능 검증 필요.
화자 독립 설정에서의 중증도 평가 정확도 개선 필요 (51.97%).
실제 임상 환경에서의 성능 평가 및 검증 필요.
다양한 유형의 구어 장애에 대한 일반화 가능성 검토 필요.
👍