Dans cet article, nous proposons une technique de fusion de modèles de bas rang et clairsemés (LoRS-Merging) pour résoudre le problème de diversité linguistique dans les tâches de conversion parole-texte (S2T) multilingues. Les approches d'apprentissage multitâches multilingues existantes visent à optimiser conjointement plusieurs tâches de reconnaissance vocale et de traduction dans plusieurs langues, mais souffrent d'un coût de calcul élevé, d'interférences linguistiques, de configurations d'entraînement sous-optimales et d'une évolutivité limitée. LoRS-Merging combine un élagage de bas rang et clairsemé pour supprimer les paramètres redondants tout en préservant les structures essentielles, atténuant ainsi les interférences linguistiques et améliorant l'évolutivité. Les résultats expérimentaux sur dix langues montrent que LoRS-Merging surpasse l'apprentissage multitâche multilingue, l'apprentissage séquentiel et d'autres méthodes de fusion de plus de 20 %. Par conséquent, LoRS-Merging suggère un complément évolutif et efficace aux stratégies d'apprentissage multilingue existantes pour les applications S2T.