Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection
Created by
Haebom
저자
Chenxu Guo, Jiachen Lian, Xuanru Zhou, Jinming Zhang, Shuhe Li, Zongli Ye, Hwi Joo Park, Anaisha Das, Zoe Ezzes, Jet Vonk, Brittany Morin, Rian Bogley, Lisa Wauters, Zachary Miller, Maria Gorno-Tempini, Gopala Anumanchipalli
개요
본 논문은 WavLM과 같은 상위 인코더를 사용하여 음소를 전사하고 동시에 말더듬을 감지하는 제로샷 디코더인 Dysfluent-WFST를 제안합니다. 기존의 분류 기반 방법과 달리 Dysfluent-WFST는 추가적인 훈련 없이도 모의 및 실제 음성 데이터에서 음운 오류율과 말더듬 감지 모두에서 최첨단 성능을 달성합니다. 전사와 말더듬 감지를 동시에 수행하며, 복잡한 아키텍처 대신 발음 행동의 명시적 모델링을 통해 경량화, 해석 가능성 및 효율성을 향상시켰다는 점이 특징입니다. 이는 언어병리학자의 효율적인 전사 및 진단, 치료 계획 수립에 도움을 줄 수 있습니다.
시사점, 한계점
•
시사점:
◦
제로샷 학습을 통해 추가적인 훈련 없이도 우수한 성능을 달성함으로써 모델 개발의 효율성을 높였습니다.
◦
전사와 말더듬 감지를 동시에 수행하여 기존 방법보다 종합적인 정보를 제공합니다.
◦
경량화된 모델로 실시간 처리 및 적용이 용이합니다.
◦
발음 행동의 명시적 모델링이 말더듬 처리 시스템 개선에 중요함을 보여줍니다.
◦
언어병리학자의 진단 및 치료 계획 수립에 실질적인 도움을 줄 수 있습니다.
•
한계점:
◦
본 논문에서는 구체적인 한계점이 언급되지 않았습니다. 추가적인 실험 및 분석을 통해 다양한 유형의 말더듬이나 음성 장애에 대한 일반화 성능, 실제 임상 환경에서의 적용 가능성 등에 대한 검증이 필요할 수 있습니다.