Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EmoVoice : modèle de synthèse vocale émotionnelle basé sur LLM avec invite de texte libre

Created by
  • Haebom

Auteur

Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen

Contour

Cet article propose EmoVoice, un nouveau modèle de synthèse vocale capable de contrôler l'expression émotionnelle. EmoVoice s'appuie sur un modèle de langage à grande échelle (MLH) pour permettre un contrôle libre et granulaire des émotions en langage naturel. De plus, inspiré des techniques de chaîne de pensée (CdP) et de chaîne de modalité (CdM), il améliore la cohérence du contenu en concevant une variante de renforcement des phonèmes qui génère des jetons phonémiques et audio en parallèle. Nous présentons également EmoVoice-DB, un ensemble de données émotionnelles en anglais de haute qualité, d'une durée de 40 heures, contenant des discours expressifs, des étiquettes émotionnelles détaillées et des descriptions en langage naturel. EmoVoice atteint des performances de pointe sur l'ensemble de tests anglais EmoVoice-DB en utilisant uniquement des données d'entraînement synthétiques, et sur l'ensemble de tests chinois Secap en utilisant nos propres données. De plus, nous étudions la fiabilité des mesures d'évaluation émotionnelle existantes et leur adéquation avec les préférences perceptuelles humaines, et évaluons le discours émotionnel à l'aide de GPT-4o-audio et Gemini, deux LLM multimodaux de pointe. L'ensemble de données, le code, les points de contrôle et les exemples de démonstration sont disponibles sur GitHub.

Takeaways, Limitations

Takeaways :
Nous proposons EmoVoice, un modèle TTS capable de contrôler les émotions en langage naturel de manière libre et détaillée en utilisant LLM.
Améliorer la cohérence du contenu grâce à la conception de transformation par amplification des phonèmes.
Publication de l'ensemble de données de sentiment anglais de haute qualité EmoVoice-DB.
Atteindre des performances de pointe avec des données synthétiques uniquement.
Une étude sur la fiabilité des indicateurs d’évaluation émotionnelle existants et leur alignement avec les préférences perceptuelles humaines.
ÉValuation de la parole émotionnelle à l'aide d'un LLM multimodal de pointe.
Assurer la reproductibilité de la recherche grâce à un accès ouvert au code, aux ensembles de données, aux points de contrôle et aux échantillons de démonstration.
Limitations:
EmoVoice-DB est centré sur l'anglais, ce qui peut limiter sa généralisabilité à d'autres langues.
ÉTant donné qu'il a été formé uniquement avec des données synthétiques, des études comparatives avec des résultats de formation utilisant des données vocales réelles sont nécessaires.
Des recherches supplémentaires sont nécessaires sur les limites des indicateurs d’évaluation émotionnelle existants et sur le développement de méthodologies d’évaluation plus sophistiquées.
Une vérification de la fiabilité des résultats d'évaluation LLM tels que GPT-4o-audio et Gemini est requise.
👍