Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

Created by
  • Haebom

저자

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

개요

본 논문은 기존 Text-to-Speech (TTS) 시스템의 제한적인 감정 제어 방식을 개선하기 위해, 활성화 제어(activation steering) 기반의 새로운 학습 없는(training-free) 접근 방식인 EmoSteer-TTS를 제안합니다. EmoSteer-TTS는 흐름 일치 기반 TTS 모델 내부 활성화의 일부를 수정하여 합성 음성의 감정적 어조를 효과적으로 변경하는 것을 관찰하고, 이를 바탕으로 활성화 추출, 감정 토큰 탐색, 추론 시간 제어를 포함하는 효율적인 알고리즘을 개발했습니다. 다양한 사전 훈련된 모델에 통합 가능하며, 다양한 화자의 감정적 음성 데이터셋을 활용하여 효과적인 제어 벡터를 도출합니다. 실험 결과, EmoSteer-TTS는 최첨단(SOTA) 성능을 뛰어넘는 미세 조정 가능하고, 해석 가능하며, 연속적인 음성 감정 제어를 가능하게 함을 보여줍니다. 이는 학습 없이 미세 조정된 연속적인 감정 제어를 달성한 최초의 방법입니다.

시사점, 한계점

시사점:
기존 TTS의 한계였던 제한적인 감정 제어 문제를 학습 없이 해결하는 새로운 접근 방식 제시.
미세 조정 가능하고, 해석 가능하며, 연속적인 음성 감정 제어 가능.
다양한 사전 훈련된 TTS 모델에 적용 가능한 확장성.
최첨단 성능 달성.
한계점:
제안된 방법의 효과는 특정 유형의 TTS 모델(flow matching-based 모델)에 의존적일 수 있음.
감정적 음성 데이터셋의 질과 다양성에 성능이 영향을 받을 수 있음.
활성화 제어 방식의 내부 작동 메커니즘에 대한 추가적인 연구가 필요할 수 있음.
다른 감정 표현 방식(예: 음높이, 속도)에 대한 제어 기능은 추가적인 연구가 필요할 수 있음.
👍