Este artículo propone un marco multimodal que combina señales de micrófonos conducidos por el cuerpo (BMS) y señales de micrófonos acústicos (AMS). Las BMS son robustas al ruido, pero sufren pérdida de información de alta frecuencia, mientras que las AMS son ricas en información de alta frecuencia, pero susceptibles al ruido. Este estudio aborda estas deficiencias mediante el uso de dos redes: un modelo basado en mapeo que mejora las BMS y un modelo basado en enmascaramiento que elimina el ruido de las AMS. Ambos modelos se integran mediante un mecanismo de fusión dinámica que se adapta a las condiciones locales de ruido, optimizando las fortalezas de cada modalidad. La evaluación mediante métricas objetivas de calidad del habla, incluyendo clips de ruido DNS-2023 añadidos al conjunto de datos TAPS, demuestra un rendimiento superior en comparación con los enfoques monomodales en diversos entornos de ruido.