Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Qu'est-ce qui fait un bon générateur de mots pour la génération de discours centrée sur le LLM ? Une étude systématique

Created by
  • Haebom

Auteur

Xiaoran Fan, Zhichao Sun, Yangfan Gao, Jingfei Xiong, Hang Yan, Yifei Cao, Jiajun Sun, Shuo Li, Zhihao Zhang, Zhiheng Xi, Yuhao Zhou, Senjie Jin, Changhao Jiang, Junjie Ye, Ming Zhang, Rui Zheng, Zhenhua Han, Yunke Zhang, Demei Yan, Shaokang Dong, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Contour

Cet article étudie systématiquement le rôle de la conception de tokeniseurs de parole dans un modèle de langage parlé (MLP) et propose des améliorations pour un alignement intermodal efficace entre parole et texte et une génération vocale de haute qualité. En ajoutant la modélisation de la tête de parole et du locuteur au LLM centré sur le LLM, et en comparant et analysant des tokeniseurs de parole conjugués, semi-conjugués et entièrement non conjugués, nous constatons que la tokenisation non conjuguée améliore significativement la qualité de l'alignement et de la synthèse. De plus, pour remédier à l'inadéquation de la densité d'information entre parole et texte, nous introduisons la prédiction multi-jetons (MTP), qui améliore la vitesse de décodage jusqu'à 12 fois et réduit significativement le taux d'erreur de mots de 6,07 % à 3,01 %. Enfin, nous proposons un paradigme de génération sensible au locuteur et introduisons RoleTriviaQA, un benchmark d'assurance qualité des connaissances basé sur un jeu de rôle à grande échelle avec diverses identités de locuteurs, afin d'améliorer la compréhension des connaissances et la cohérence des locuteurs.

Takeaways, Limitations

Takeaways:
Nous démontrons qu'un tokeniseur de parole non contraignant est efficace pour améliorer l'alignement parole-texte et la qualité de synthèse du SLM.
Améliore considérablement la vitesse de décodage du SLM et réduit le taux d'erreur de mots grâce à la prédiction multi-jetons (MTP).
Améliorer la compréhension des connaissances et la cohérence des locuteurs grâce aux paradigmes de génération de reconnaissance des locuteurs et au benchmark RoleTriviaQA.
Limitations:
Une validation supplémentaire de l’échelle et de la diversité du benchmark RoleTriviaQA est nécessaire.
Une évaluation des performances de généralisation de la méthode proposée sur d’autres architectures et ensembles de données SLM est nécessaire.
Une analyse plus approfondie de la complexité de calcul et de l’utilisation de la mémoire du MTP est nécessaire.
👍