Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Amélioration de la parole spécifique à la modalité et fusion adaptative au bruit pour le cadre des microphones acoustiques et à conduction corporelle

Created by
  • Haebom

Auteur

Yunsik Kim, Yoonyoung Chung

Contour

Cet article propose un cadre multimodal combinant les signaux microphoniques corporels (BMS) et les signaux microphoniques acoustiques (AMS). Les BMS sont robustes au bruit, mais souffrent d'une perte d'informations haute fréquence, tandis que les AMS sont riches en informations haute fréquence, mais sensibles au bruit. Cette étude comble ces lacunes en utilisant deux réseaux : un modèle basé sur la cartographie qui améliore les BMS et un modèle basé sur le masquage qui supprime le bruit des AMS. Les deux modèles sont intégrés grâce à un mécanisme de fusion dynamique qui s'adapte aux conditions de bruit locales, exploitant de manière optimale les atouts de chaque modalité. L'évaluation à l'aide de mesures objectives de la qualité vocale, notamment des extraits de bruit DNS-2023 ajoutés à l'ensemble de données TAPS, démontre des performances supérieures à celles des approches monomodales dans divers environnements de bruit.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre multimodal qui combine les avantages des microphones conducteurs corporels et acoustiques pour obtenir simultanément une annulation du bruit et une restauration des informations haute fréquence.
L'utilisation efficace des réseaux basés sur la cartographie et le masquage permet d'obtenir des performances améliorées par rapport aux méthodes classiques de combinaison de fonctionnalités simples.
Adaptabilité accrue à divers environnements sonores grâce à des mécanismes de fusion dynamique.
La supériorité de la méthode proposée est vérifiée par des résultats d’évaluation objectifs de la qualité de la voix.
Limitations:
Une validation supplémentaire des performances de généralisation de l'ensemble de données utilisé (TAPS + DNS-2023) est nécessaire.
Une évaluation des performances dans des environnements réels et une évaluation de la robustesse par rapport à des types de bruit supplémentaires sont nécessaires.
Il faut tenir compte de la complexité du modèle et du coût de calcul.
👍