[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SpecMaskFoley: Dirigir un transformador generativo enmascarado espectral preentrenado hacia la síntesis sincronizada de video a audio mediante ControlNet

Created by
  • Haebom

Autor

Zhi Zhong, Akira Takahashi, Shuyang Cui, Keisuke Toyama, Shusuke Takahashi, Yuki Mitsufuji

Describir

Este artículo se centra en la síntesis Foley, que sintetiza audio de alta calidad alineado semántica y temporalmente con una imagen mediante un modelo generativo de audio preentrenado. Para superar las limitaciones de los métodos de síntesis Foley basados en ControlNet, que dependen de condiciones temporales predefinidas, en este artículo proponemos un método SpecMaskFoley que aplica ControlNet a un modelo SpecMaskGIT preentrenado. En particular, utilizamos eficazmente una única rama de ControlNet mediante un alineador de características temporales con reconocimiento de frecuencia para resolver la discrepancia entre las características temporales de una imagen y las características de tiempo-frecuencia del modelo SpecMaskGIT. Como resultado, SpecMaskFoley demuestra un rendimiento mejorado en comparación con los modelos predefinidos existentes y contribuye significativamente al desarrollo de modelos de síntesis Foley basados en ControlNet.

Takeaways, Limitations

Takeaways:
Mejoramos la eficiencia de la polisíntesis aprovechando modelos previamente entrenados.
Amplíe la usabilidad de ControlNet para lograr un rendimiento superior sin mecanismos condicionales complejos.
Presenta nuevas posibilidades para la investigación de polisíntesis basada en ControlNet al superar los modelos creados desde cero existentes.
Solucionamos eficazmente el problema del desajuste entre las características temporales y las características de tiempo-frecuencia a través de un alineador de características temporales que tiene en cuenta la frecuencia.
Limitations:
El rendimiento del método propuesto puede estar limitado a ciertos conjuntos de datos de referencia.
Se necesita una evaluación adicional del rendimiento de generalización para diferentes tipos de imágenes y audio.
Puede haber limitaciones arquitectónicas que dependan del modelo SpecMaskGIT.
👍