Cet article propose un cadre multimodal combinant les signaux microphoniques corporels (BMS) et les signaux microphoniques acoustiques (AMS). Les BMS sont robustes au bruit, mais souffrent d'une perte d'informations haute fréquence, tandis que les AMS sont riches en informations haute fréquence, mais sensibles au bruit. Cette étude comble ces lacunes en utilisant deux réseaux : un modèle basé sur la cartographie qui améliore les BMS et un modèle basé sur le masquage qui supprime le bruit des AMS. Les deux modèles sont intégrés grâce à un mécanisme de fusion dynamique qui s'adapte aux conditions de bruit locales, exploitant de manière optimale les atouts de chaque modalité. L'évaluation à l'aide de mesures objectives de la qualité vocale, notamment des extraits de bruit DNS-2023 ajoutés à l'ensemble de données TAPS, démontre des performances supérieures à celles des approches monomodales dans divers environnements de bruit.