यह शोधपत्र एक बहुविध ढाँचे का प्रस्ताव करता है जो शरीर-संचालित माइक्रोफ़ोन संकेतों (BMS) और ध्वनिक माइक्रोफ़ोन संकेतों (AMS) को जोड़ता है। BMS शोर के प्रति मज़बूत है, लेकिन उच्च-आवृत्ति सूचना के ह्रास से ग्रस्त है, जबकि AMS उच्च-आवृत्ति सूचना से समृद्ध है, लेकिन शोर के प्रति संवेदनशील है। यह अध्ययन दो नेटवर्कों का उपयोग करके इन कमियों को दूर करता है: एक मानचित्रण-आधारित मॉडल जो BMS को बढ़ाता है और एक मास्किंग-आधारित मॉडल जो AMS से शोर को हटाता है। दोनों मॉडलों को एक गतिशील संलयन तंत्र के माध्यम से एकीकृत किया गया है जो स्थानीय शोर स्थितियों के अनुकूल होता है, और प्रत्येक साधन की शक्तियों का इष्टतम लाभ उठाता है। TAPS डेटासेट में जोड़े गए DNS-2023 शोर क्लिप सहित वस्तुनिष्ठ वाक् गुणवत्ता मेट्रिक्स का उपयोग करके मूल्यांकन, विभिन्न शोर वातावरणों में एकल-विध दृष्टिकोणों की तुलना में बेहतर प्रदर्शन प्रदर्शित करता है।