Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Difficulty of Token-Level Modeling of Dysfluency and Fluency Shaping Artifacts

Created by
  • Haebom
Category
Empty

저자

Kashaf Gulzar, Dominik Wagner, Sebastian P. Bayerl, Florian Honig, Tobias Bocklet, Korbinian Riedhammer

자동화된 말더듬 음성 기록 연구

개요

본 연구는 현대적인 end-to-end (E2E) 자동 음성 인식 (ASR) 프레임워크에서도 어려운 과제인 말더듬 음성의 자동 기록에 대해 다룹니다. 말더듬과 유창성 조절로 인한 오류를 해결하기 위해, 연구는 dysfluencies와 fluency modifications를 특수 토큰으로 디코딩하는 효율적인 파라미터 적응 방법을 제안합니다. LibriStutter (영어) 및 KSoF (독일어) 데이터셋을 사용하여 시뮬레이션 및 자연 말더듬 음성에 대한 성능을 평가합니다. 또한, ASR 성능 격차 및 영어 편향을 완화하기 위해 언어 적응 사전 훈련을 포함한 다단계 미세 조정 전략을 소개합니다. 토큰화 분석은 토크나이저의 영어 중심 편향을 강조하며, 독일어 데이터에 대한 성능 향상에 어려움을 줍니다.

시사점, 한계점

경량 적응 기술을 통해 dysfluency-aware ASR의 효과를 입증했습니다.
다국어 E2E 시스템의 주요 한계를 드러냈습니다.
영어 중심 토크나이저의 편향이 독일어 데이터 성능 향상에 영향을 미침을 확인했습니다.
언어 간 성능 격차를 완화하기 위한 다단계 미세 조정 전략을 제시했습니다.
👍