Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

Created by
  • Haebom

저자

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

개요

본 논문은 기존 Text-to-Speech (TTS) 시스템의 감정 제어가 불완전하고 제한적이라는 점을 지적하며, 훈련 없이 미세 조정된 음성 감정 제어(변환, 보간, 삭제)를 가능하게 하는 새로운 방법인 EmoSteer-TTS를 제안합니다. EmoSteer-TTS는 흐름 일치 기반 TTS 모델의 내부 활성화 값을 수정하여 합성 음성의 감정적 어조를 효과적으로 변경하는 원리를 이용합니다. 활성화 추출, 감정 토큰 검색, 추론 시간 조향을 포함하는 훈련이 필요 없는 효율적인 알고리즘을 개발하여 다양한 사전 훈련된 모델에 통합할 수 있습니다. 다양한 화자의 감정적 음성 데이터셋을 구축하여 효과적인 조향 벡터를 도출하며, 실험 결과 기존 최고 성능(SOTA)을 능가하는 미세 조정 가능하고 해석 가능하며 연속적인 음성 감정 제어를 보여줍니다. 본 연구는 훈련 없이 미세 조정된 연속적인 감정 제어를 달성한 최초의 방법입니다.

시사점, 한계점

시사점:
훈련 없이 미세 조정된 연속적인 음성 감정 제어를 가능하게 하는 새로운 방법 제시.
기존 TTS 모델에 손쉽게 통합 가능한 효율적인 알고리즘 개발.
다양한 사전 훈련된 TTS 모델에서 우수한 성능을 입증.
해석 가능하고 직관적인 감정 제어 제공.
한계점:
제안된 방법의 효과는 특정 유형의 TTS 모델(흐름 일치 기반)에 의존적일 수 있음.
다양한 감정 표현에 대한 일반화 성능에 대한 추가적인 연구 필요.
구축된 감정 음성 데이터셋의 범위와 질에 따라 성능이 영향을 받을 수 있음.
실제 응용 분야에서의 견고성 및 일반화 성능 평가가 추가적으로 필요함.
👍