Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance

Created by
  • Haebom

저자

Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Mikyas T. Desta, Roy Fejgin, Rafael Valle, Jason Li

개요

자동회귀 음성 토큰 생성 모델은 다양하고 자연스러운 음성을 생성하지만, 제어 불가능성으로 인해 환각이나 원치 않는 발성과 같은 문제가 발생합니다. Koel-TTS는 자동 음성 인식 및 화자 인증 모델을 이용한 선호도 정렬 기법을 통합하여 이러한 문제를 해결하는 향상된 인코더-디코더 Transformer TTS 모델입니다. 또한 분류기 없는 안내(classifier-free guidance)를 통합하여 전사 및 참조 화자 오디오에 대한 합성 준수성을 더욱 향상시켰습니다. 실험 결과, 이러한 최적화는 합성 음성의 목표 화자 유사성, 명료성 및 자연스러움을 크게 향상시켰으며, 상당히 작은 데이터셋으로 훈련되었음에도 불구하고 기존 최고 성능의 TTS 모델을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
자동 음성 인식 및 화자 인증 모델을 활용한 선호도 정렬 기법과 분류기 없는 안내 기법을 통해 TTS 모델의 제어 가능성과 합성 음성의 품질을 크게 향상시켰습니다.
작은 데이터셋으로도 최첨단 성능을 달성하여 데이터 효율성을 증명했습니다.
목표 화자 유사성, 명료성, 자연스러움을 모두 향상시켰습니다.
한계점:
사용된 데이터셋의 크기가 명시적으로 제시되지 않았으므로, 다른 대규모 데이터셋과 비교한 성능 평가가 부족할 수 있습니다.
논문에서 언급된 "작은 데이터셋"의 구체적인 크기와 다른 모델과의 데이터셋 차이에 대한 자세한 분석이 필요합니다.
특정 언어 또는 화자에 대한 편향성 여부에 대한 분석이 부족합니다.
👍