Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

Created by
  • Haebom

저자

Cheng-Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee

개요

본 논문은 비지도 학습 데이터만을 이용하여 자동 음성 인식(ASR) 성능을 향상시키는 자기 개선 프레임워크를 제안합니다. 기존 ASR 모델을 이용하여 비표기 음성 데이터에 의사 레이블을 생성하고, 이를 사용하여 고품질 음성 합성(TTS) 시스템을 학습시킵니다. 그 후, 합성된 음성-텍스트 쌍을 원래 ASR 시스템에 추가하여 자기 개선 주기를 완성합니다. 대만어 만다린어 음성 데이터를 사용하여 6,000시간의 비표기 음성 데이터, 적은 양의 텍스트 데이터, 그리고 AI 모델에서 생성된 합성 데이터를 활용하여 Whisper-large-v2 모델을 Twister라는 특화된 모델로 개선하였습니다. Twister는 만다린어 및 만다린어-영어 코드 전환 벤치마크에서 Whisper 대비 오류율을 최대 20%, 50%까지 감소시켰습니다. 이 결과는 제안된 프레임워크가 의사 레이블링 자기 증류 방식에 대한 매력적인 대안이며, 저자원 또는 특정 도메인 환경에서 ASR 성능을 향상시키는 실용적인 방법임을 보여줍니다.

시사점, 한계점

시사점:
비표기 데이터만을 이용하여 ASR 성능을 효과적으로 향상시키는 새로운 프레임워크 제시.
저자원 또는 특정 도메인 환경에서 ASR 성능 향상에 대한 실용적인 해결책 제공.
의사 레이블링 자기 증류 방식에 대한 경쟁력 있는 대안 제시.
대규모 비표기 데이터를 활용하여 특정 언어/도메인에 특화된 ASR 모델 개발 가능성 제시.
한계점:
TTS 모델의 성능이 최종 ASR 성능에 영향을 미칠 수 있음. TTS 모델의 품질이 낮을 경우, ASR 성능 향상에 제한이 있을 수 있음.
프레임워크의 성능은 사용되는 기본 ASR 및 TTS 모델에 의존적일 수 있음.
대규모 비표기 데이터 확보의 어려움.
특정 언어(대만어 만다린어) 및 도메인에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.
👍