Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mamba2 se une al silencio: separación robusta de fuentes vocales para regiones dispersas

Created by
  • Haebom

Autor

Euiyeon Kim, Yong-Hoon Choi

Describir

Este artículo presenta un novedoso modelo de separación de fuentes especializado en la separación precisa de voces. Para superar la dificultad de los modelos existentes basados ​​en Transformers para capturar voces intermitentes, utilizamos Mamba2, un modelo de espacio de estados de vanguardia que captura mejor las dependencias temporales a largo plazo. Para procesar eficientemente secuencias de entrada largas, combinamos una estrategia de división de banda con una arquitectura de doble ruta. Los resultados experimentales demuestran que el modelo propuesto supera a los modelos de vanguardia actuales, alcanzando una cSDR (la mejor de su clase) de 11,03 dB y demostrando mejoras significativas en el rendimiento incluso con uSDR. Además, demuestra un rendimiento estable y consistente en un amplio rango de longitudes de entrada y patrones de ocurrencia vocal. Estos resultados demuestran la eficacia del modelo basado en Mamba para el procesamiento de audio de alta resolución y sugieren nuevas direcciones para aplicaciones más amplias en la investigación de audio.

Takeaways, Limitations

Takeaways:
Aprovechando un modelo basado en Mamba2, superamos las limitaciones de los modelos existentes basados ​​en Transformer y mejoramos significativamente el rendimiento de separación vocal (un cSDR de 11,03 dB).
Proponemos un método para procesar eficientemente secuencias de entrada largas utilizando una estrategia de división de banda y una arquitectura de ruta dual.
Su rendimiento estable en una amplia gama de longitudes de entrada y patrones de ocurrencia vocal mejora su potencial para aplicaciones prácticas.
Demostramos la utilidad de los modelos basados ​​en Mamba en el procesamiento de audio de alta resolución.
Limitations:
Este artículo no proporciona una explicación detallada de la implementación específica del modelo Mamba2 o el ajuste de hiperparámetros.
No se presentaron evaluaciones de desempeño para otros tipos de separación de fuentes de sonido (por ejemplo, separación de instrumentos).
Se necesita un análisis más profundo del rendimiento de generalización en conjuntos de datos distintos de los conjuntos de datos de música del mundo real.
👍