Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
Contour
VibeVoice est un nouveau modèle qui synthétise la parole longue durée de plusieurs locuteurs grâce à la diffusion du jeton suivant. Il exploite cette méthode unifiée qui génère de manière autorégressive des vecteurs latents pour modéliser des données continues. Grâce à un nouveau tokeniseur de parole continue offrant une compression des données 80 fois supérieure à celle des modèles Encodec existants, VibeVoice améliore considérablement l'efficacité de calcul du traitement des séquences longue durée tout en préservant la fidélité audio. Ainsi, VibeVoice peut synthétiser la parole longue durée (fenêtre contextuelle de 64 Ko) provenant d'un maximum de quatre locuteurs, créant ainsi une atmosphère conversationnelle réaliste surpassant les modèles de conversation open source et commerciaux.
Takeaways, Limitations_
•
Takeaways:
◦
Nous présentons un modèle efficace de synthèse vocale multi-locuteurs à long terme basé sur la diffusion de jetons suivante.
◦
Développement d'un nouveau tokeniseur de parole continue avec un taux de compression de données 80 fois meilleur que les modèles existants.
◦
Synthèse vocale multi-locuteurs de haute qualité jusqu'à 90 minutes de durée.
◦
Mettre en œuvre une atmosphère conversationnelle améliorée par rapport aux modèles open source et commerciaux.
•
Limitations:
◦
L’article ne présente pas de mesures spécifiques d’évaluation des performances (par exemple, la qualité sonore, le naturel).
◦
Limitations possibles du temps de synthèse en raison de la limite de longueur de la fenêtre de contexte de 64 Ko.
◦
Les performances pour plus de 4 haut-parleurs n'ont pas été confirmées.
◦
Manque d'informations sur les données de formation et l'architecture spécifique du modèle.