Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Conformistas preentrenados para la toma de huellas y recuperación de audio

Created by
  • Haebom

Autor

Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic

Describir

Este artículo presenta un método para entrenar un codificador basado en Conformer que genera incrustaciones únicas para pequeños segmentos de audio mediante un marco de aprendizaje contrastivo autosupervisado. Al aprovechar la capacidad de Conformer para capturar interacciones locales y globales, logramos un rendimiento de vanguardia en tareas de recuperación de audio, generando incrustaciones a partir de tan solo 3 segundos de audio. Además, mantenemos este rendimiento de vanguardia a la vez que somos prácticamente inmunes a la desalineación temporal y otros artefactos de audio, como ruido, reverberación y estiramiento temporal extremo. Entrenamos y probamos nuestro modelo en conjuntos de datos públicos de diversos tamaños, y también publicamos el código y el modelo para garantizar la reproducibilidad de nuestros resultados.

Takeaways, Limitations

Takeaways:
Se pueden crear incrustaciones efectivas con solo 3 segundos de audio.
Resistente a errores de alineación temporal y diversas distorsiones de audio.
Lograr un rendimiento de vanguardia en tareas de búsqueda de audio
Garantizar la reproducibilidad de los resultados mediante código abierto y divulgación de modelos
Limitations:
En el resumen no se hace referencia explícita a Limitations específico. Se requiere un análisis más profundo.
👍