Este artículo aborda la cuestión de que el rendimiento de los modelos de reconocimiento automático de voz (ASR) preentrenados puede verse significativamente reducido al utilizarse con audio de entrada procedente de diferentes canales de grabación. Si bien investigaciones previas suelen atribuir este fenómeno a discrepancias entre los corpus de entrenamiento y de prueba, este artículo argumenta que las variaciones en las características del habla debidas a los diferentes canales de grabación pueden reducir significativamente el rendimiento del ASR. Para abordar esta limitación, se propone una técnica de normalización diseñada para mitigar los efectos de las variaciones de canal mediante la alineación de las representaciones internas de las características del modelo ASR con las representaciones derivadas de un canal de referencia limpio. El método propuesto mejora significativamente el rendimiento del ASR en canales e idiomas no vistos previamente, demostrando su capacidad de generalización a través de las diferencias de canal e idioma.