En este artículo, proponemos una técnica de fusión de modelos dispersos y de bajo rango (LoRS-Merging) para abordar el problema de la diversidad lingüística en tareas multilingües de reconocimiento de voz a texto (S2T). Los enfoques existentes de aprendizaje multitarea multilingüe buscan optimizar conjuntamente múltiples tareas de reconocimiento de voz y traducción en varios idiomas, pero presentan un alto costo computacional, interferencia lingüística, configuraciones de entrenamiento subóptimas y una escalabilidad limitada. LoRS-Merging combina la poda de modelos dispersos y de bajo rango para eliminar parámetros redundantes, preservando al mismo tiempo las estructuras esenciales, mitigando así la interferencia lingüística y mejorando la escalabilidad. Los resultados experimentales en diez idiomas muestran que LoRS-Merging supera al aprendizaje multitarea multilingüe, al aprendizaje secuencial y a otros métodos de fusión en más de un 20 %. Por lo tanto, LoRS-Merging sugiere un complemento escalable y eficaz a las estrategias de aprendizaje multilingüe existentes para aplicaciones S2T.