Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fusion de modèles de faible rang et clairsemés pour la reconnaissance vocale et la traduction multilingues

Created by
  • Haebom

Auteur

Qiuming Zhao, Guangzhi Sun, Chao Zhang

Contour

Dans cet article, nous proposons une technique de fusion de modèles de bas rang et clairsemés (LoRS-Merging) pour résoudre le problème de diversité linguistique dans les tâches de conversion parole-texte (S2T) multilingues. Les approches d'apprentissage multitâches multilingues existantes visent à optimiser conjointement plusieurs tâches de reconnaissance vocale et de traduction dans plusieurs langues, mais souffrent d'un coût de calcul élevé, d'interférences linguistiques, de configurations d'entraînement sous-optimales et d'une évolutivité limitée. LoRS-Merging combine un élagage de bas rang et clairsemé pour supprimer les paramètres redondants tout en préservant les structures essentielles, atténuant ainsi les interférences linguistiques et améliorant l'évolutivité. Les résultats expérimentaux sur dix langues montrent que LoRS-Merging surpasse l'apprentissage multitâche multilingue, l'apprentissage séquentiel et d'autres méthodes de fusion de plus de 20 %. Par conséquent, LoRS-Merging suggère un complément évolutif et efficace aux stratégies d'apprentissage multilingue existantes pour les applications S2T.

Takeaways, Limitations

Takeaways:
Nous démontrons expérimentalement que la technique LoRS-Merging peut améliorer considérablement les performances des tâches de conversion de la parole en texte (S2T) multilingues.
Présentation d'une alternative qui répond efficacement aux problèmes de coût informatique et d'interférence linguistique de l'apprentissage multitâche multilingue existant.
Démontre l'efficacité et l'évolutivité de la fusion de modèles dans les applications S2T.
Nous présentons une nouvelle méthode permettant d’intégrer efficacement des modèles pour différentes langues.
Limitations:
La gamme linguistique de l'expérience présentée peut être limitée (10 langues).
Des recherches supplémentaires sont nécessaires sur les paramètres optimaux de la technique LoRS-Merging.
Une validation supplémentaire des performances de généralisation sur divers ensembles de données et tâches vocales est nécessaire.
Une analyse comparative plus détaillée avec d’autres méthodes de fusion de modèles peut être nécessaire.
👍