Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection
Created by
Haebom
저자
Chenxu Guo, Jiachen Lian, Xuanru Zhou, Jinming Zhang, Shuhe Li, Zongli Ye, Hwi Joo Park, Anaisha Das, Zoe Ezzes, Jet Vonk, Brittany Morin, Rian Bogley, Lisa Wauters, Zachary Miller, Maria Gorno-Tempini, Gopala Anumanchipalli
개요
본 논문은 언어장애가 있는 발화의 자동적인 유창성 장애 검출을 위한 새로운 모델인 Dysfluent-WFST를 제안합니다. 기존의 방법들은 분류에 국한되어 임상적 통찰력이 부족하고, 문맥에 의존적인 유창성 장애를 잘못 분류하는 한계가 있습니다. Dysfluent-WFST는 WavLM과 같은 상위 인코더를 사용하여 음소를 전사하고 동시에 유창성 장애를 검출하는 제로샷 디코더입니다. 추가적인 훈련 없이도 모의 및 실제 발화 데이터에서 음운 오류율과 유창성 장애 검출 모두에서 최첨단 성능을 달성합니다. 경량이며 해석 가능하고 효과적임을 보여주며, 복잡한 구조보다는 디코딩에서 발음 행동을 명시적으로 모델링하는 것이 유창성 처리 시스템 개선의 핵심임을 시사합니다.
시사점, 한계점
•
시사점:
◦
WavLM과 같은 상위 인코더를 활용하여 추가 훈련 없이 유창성 장애 검출 및 음소 전사를 동시에 수행하는 효율적인 방법 제시.