On the Difficulty of Token-Level Modeling of Dysfluency and Fluency Shaping Artifacts
Created by
Haebom
Category
Empty
저자
Kashaf Gulzar, Dominik Wagner, Sebastian P. Bayerl, Florian Honig, Tobias Bocklet, Korbinian Riedhammer
자동화된 말더듬 음성 기록 연구
개요
본 연구는 현대적인 end-to-end (E2E) 자동 음성 인식 (ASR) 프레임워크에서도 어려운 과제인 말더듬 음성의 자동 기록에 대해 다룹니다. 말더듬과 유창성 조절로 인한 오류를 해결하기 위해, 연구는 dysfluencies와 fluency modifications를 특수 토큰으로 디코딩하는 효율적인 파라미터 적응 방법을 제안합니다. LibriStutter (영어) 및 KSoF (독일어) 데이터셋을 사용하여 시뮬레이션 및 자연 말더듬 음성에 대한 성능을 평가합니다. 또한, ASR 성능 격차 및 영어 편향을 완화하기 위해 언어 적응 사전 훈련을 포함한 다단계 미세 조정 전략을 소개합니다. 토큰화 분석은 토크나이저의 영어 중심 편향을 강조하며, 독일어 데이터에 대한 성능 향상에 어려움을 줍니다.