Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection

Created by
  • Haebom

저자

Chenxu Guo, Jiachen Lian, Xuanru Zhou, Jinming Zhang, Shuhe Li, Zongli Ye, Hwi Joo Park, Anaisha Das, Zoe Ezzes, Jet Vonk, Brittany Morin, Rian Bogley, Lisa Wauters, Zachary Miller, Maria Gorno-Tempini, Gopala Anumanchipalli

개요

본 논문은 언어장애가 있는 발화의 자동적인 유창성 장애 검출을 위한 새로운 모델인 Dysfluent-WFST를 제안합니다. 기존의 방법들은 분류에 국한되어 임상적 통찰력이 부족하고, 문맥에 의존적인 유창성 장애를 잘못 분류하는 한계가 있습니다. Dysfluent-WFST는 WavLM과 같은 상위 인코더를 사용하여 음소를 전사하고 동시에 유창성 장애를 검출하는 제로샷 디코더입니다. 추가적인 훈련 없이도 모의 및 실제 발화 데이터에서 음운 오류율과 유창성 장애 검출 모두에서 최첨단 성능을 달성합니다. 경량이며 해석 가능하고 효과적임을 보여주며, 복잡한 구조보다는 디코딩에서 발음 행동을 명시적으로 모델링하는 것이 유창성 처리 시스템 개선의 핵심임을 시사합니다.

시사점, 한계점

시사점:
WavLM과 같은 상위 인코더를 활용하여 추가 훈련 없이 유창성 장애 검출 및 음소 전사를 동시에 수행하는 효율적인 방법 제시.
기존 방법보다 우수한 성능(음운 오류율 및 유창성 장애 검출 정확도) 달성.
경량이고 해석 가능한 모델 구조를 통해 임상적 활용성 증대.
발음 행동의 명시적 모델링이 유창성 장애 처리 시스템 개선에 중요함을 강조.
한계점:
본 논문에서 제시된 모델의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음.
다양한 유형의 언어장애에 대한 성능 평가가 추가적으로 필요할 수 있음.
실제 임상 환경에서의 적용 가능성 및 효용성에 대한 추가적인 검증이 필요할 수 있음.
👍