Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

OpenS2S : Développement d'un modèle de langage empathique à grande échelle, entièrement open source et de bout en bout

Created by
  • Haebom

Auteur

Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang

Contour

Dans cet article, nous présentons OpenS2S, un modèle linguistique à grande échelle (LSLM) de bout en bout, transparent et entièrement open source pour l'interaction vocale empathique. OpenS2S permet une génération vocale à faible latence grâce à une architecture de décodage entrelacé en continu basée sur le modèle de conversion parole-texte empathique BLSP-Emo. Il intègre un pipeline de construction de données automatisé qui synthétise des conversations vocales empathiques diversifiées, de haute qualité et à faible coût, facilitant ainsi l'apprentissage de bout en bout. Nous exploitons des modèles linguistiques à grande échelle pour générer du contenu empathique et introduisons des variations entre les locuteurs et les émotions grâce à un système de synthèse vocale contrôlable, créant ainsi un corpus d'apprentissage évolutif offrant une riche diversité paralinguistique et une supervision humaine minimale. Nous publions le modèle OpenS2S entièrement open source, comprenant le jeu de données, les pondérations du modèle, le pré-entraînement et le code de mise au point, afin de soutenir la communauté de recherche au sens large et d'accélérer l'innovation dans les systèmes vocaux empathiques.

Takeaways, Limitations

Takeaways:
Accélérer l'accessibilité et l'innovation de la recherche en fournissant un LSLM entièrement open source pour les interactions vocales empathiques.
Exploiter l'architecture de décodage entrelacé en streaming pour la génération de parole à faible latence.
Créez des ensembles de données à grande échelle de manière économique et efficace grâce à des pipelines de construction de données automatisés.
Fournir un corpus de formation évolutif avec une riche diversité paralinguistique.
Limitations:
Cet article ne présente pas de résultats d’évaluation spécifiques sur les performances du modèle OpenS2S.
Manque d’analyse détaillée de la qualité et du biais de l’ensemble de données.
Une analyse comparative avec d’autres LSLM empathiques est nécessaire.
Une validation supplémentaire des performances et de la stabilité dans des environnements d’application réels est requise.
👍