Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection

Created by
  • Haebom

저자

Chenxu Guo, Jiachen Lian, Xuanru Zhou, Jinming Zhang, Shuhe Li, Zongli Ye, Hwi Joo Park, Anaisha Das, Zoe Ezzes, Jet Vonk, Brittany Morin, Rian Bogley, Lisa Wauters, Zachary Miller, Maria Gorno-Tempini, Gopala Anumanchipalli

개요

본 논문은 WavLM과 같은 상위 인코더를 사용하여 음소를 전사하고 동시에 말더듬을 감지하는 제로샷 디코더인 Dysfluent-WFST를 제안합니다. 기존의 분류 기반 방법과 달리 Dysfluent-WFST는 추가적인 훈련 없이도 모의 및 실제 음성 데이터에서 음운 오류율과 말더듬 감지 모두에서 최첨단 성능을 달성합니다. 전사와 말더듬 감지를 동시에 수행하며, 복잡한 아키텍처 대신 발음 행동의 명시적 모델링을 통해 경량화, 해석 가능성 및 효율성을 향상시켰다는 점이 특징입니다. 이는 언어병리학자의 효율적인 전사 및 진단, 치료 계획 수립에 도움을 줄 수 있습니다.

시사점, 한계점

시사점:
제로샷 학습을 통해 추가적인 훈련 없이도 우수한 성능을 달성함으로써 모델 개발의 효율성을 높였습니다.
전사와 말더듬 감지를 동시에 수행하여 기존 방법보다 종합적인 정보를 제공합니다.
경량화된 모델로 실시간 처리 및 적용이 용이합니다.
발음 행동의 명시적 모델링이 말더듬 처리 시스템 개선에 중요함을 보여줍니다.
언어병리학자의 진단 및 치료 계획 수립에 실질적인 도움을 줄 수 있습니다.
한계점:
본 논문에서는 구체적인 한계점이 언급되지 않았습니다. 추가적인 실험 및 분석을 통해 다양한 유형의 말더듬이나 음성 장애에 대한 일반화 성능, 실제 임상 환경에서의 적용 가능성 등에 대한 검증이 필요할 수 있습니다.
👍