Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejora del habla específica de la modalidad y fusión adaptativa al ruido para el marco de micrófonos acústicos y de conducción corporal

Created by
  • Haebom

Autor

Yunsik Kim, Yoonyoung Chung

Describir

Este artículo propone un marco multimodal que combina señales de micrófonos conducidos por el cuerpo (BMS) y señales de micrófonos acústicos (AMS). Las BMS son robustas al ruido, pero sufren pérdida de información de alta frecuencia, mientras que las AMS son ricas en información de alta frecuencia, pero susceptibles al ruido. Este estudio aborda estas deficiencias mediante el uso de dos redes: un modelo basado en mapeo que mejora las BMS y un modelo basado en enmascaramiento que elimina el ruido de las AMS. Ambos modelos se integran mediante un mecanismo de fusión dinámica que se adapta a las condiciones locales de ruido, optimizando las fortalezas de cada modalidad. La evaluación mediante métricas objetivas de calidad del habla, incluyendo clips de ruido DNS-2023 añadidos al conjunto de datos TAPS, demuestra un rendimiento superior en comparación con los enfoques monomodales en diversos entornos de ruido.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco multimodal que combina las ventajas de los micrófonos acústicos y de conducción corporal para lograr simultáneamente la cancelación de ruido y la restauración de información de alta frecuencia.
La utilización eficaz de redes basadas en mapeo y enmascaramiento logra un rendimiento mejorado en comparación con los métodos convencionales de combinación de características simples.
Mayor adaptabilidad a diversos entornos ruidosos mediante mecanismos de fusión dinámica.
La superioridad del método propuesto se verifica a través de resultados objetivos de evaluación de la calidad de la voz.
Limitations:
Se necesita una mayor validación del rendimiento de generalización del conjunto de datos utilizado (TAPS + DNS-2023).
Se necesita una evaluación del rendimiento en entornos del mundo real y una evaluación de la robustez frente a tipos de ruido adicionales.
Es necesario tener en cuenta la complejidad del modelo y el coste computacional.
👍