Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Recomposer: Edición de audio generativa guiada por eventos

Created by
  • Haebom

Autor

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

Describir

Este artículo presenta un sistema para editar escenas de audio complejas del mundo real. Permite eliminar, insertar y mejorar eventos de audio individuales en escenas complejas donde las fuentes de sonido se superponen temporalmente. Funciona con base en descripciones textuales de la edición (p. ej., "mejorar el sonido de la puerta") y representaciones gráficas de la temporización de eventos derivadas de transcripciones de rollos de eventos. Emplea un transformador codificador-decodificador con una representación SoundStream, entrenado con pares de ejemplos de audio sintéticos (entrada, salida deseada) generados mediante la adición de eventos de audio aislados a fondos del mundo real. Los resultados de la evaluación revelan la importancia de cada parte de la descripción de la edición (acción, clase y temporización), lo que demuestra que la "reconstrucción" tiene aplicaciones importantes y prácticas.

Takeaways, Limitations

Takeaways:
Presentamos un sistema eficaz para editar eventos de sonido individuales dentro de escenas de sonido complejas.
Es posible editar mediante instrucciones de edición basadas en texto e información de tiempo de eventos.
Implementación de modelo eficiente utilizando la representación SoundStream.
Presentamos el potencial de una nueva aplicación de edición de sonido llamada "Reconstrucción".
Verificar experimentalmente la importancia de cada elemento de la descripción de la edición (acción, clase, tiempo).
Limitations:
Posible degradación del rendimiento de generalización a datos del mundo real debido al entrenamiento con datos sintéticos.
Dependencia de la precisión del evento del guerrero.
Se requiere verificar el rendimiento de generalización para varios tipos de eventos acústicos y escenas acústicas complejas.
👍