Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué está causando ese sonido ahora mismo? Localización audiovisual centrada en el vídeo.

Created by
  • Haebom

Autor

Hahyeon Choi, Junhoo Lee, Nojun Kwak

Describir

Este artículo señala las deficiencias de los estudios existentes de localización audiovisual (AVL), a saber, descuidar la dinámica temporal y simplificar excesivamente los escenarios, y propone un nuevo punto de referencia de AVL centrado en video, AVATAR, que incorpora información temporal de alta resolución para abordarlas. AVATAR está diseñado para permitir una evaluación más completa de los modelos AVL al cubrir cuatro escenarios: sonido único, sonidos mixtos, objetos múltiples y fuera de pantalla. Además, presentamos TAVLO, un nuevo modelo AVL centrado en video que incorpora explícitamente información temporal. Los resultados experimentales muestran que TAVLO logra una alineación audiovisual robusta y precisa al aprovechar el modelado temporal de alta resolución, mientras que los métodos existentes tienen dificultades para rastrear los cambios temporales debido a su dependencia de las características globales de audio y el mapeo cuadro por cuadro. Esto demuestra experimentalmente la importancia de la dinámica temporal en AVL y presenta un nuevo estándar para AVL centrado en video.

Takeaways, Limitations

Takeaways:
Presentamos una nueva dirección para la investigación de AVL mediante la presentación de un modelo y un punto de referencia de AVL centrados en video (AVATAR) que utilizan información temporal de alta resolución.
Resuelve el problema de la falta de consideración de la dinámica temporal en los modelos AVL existentes, Limitations.
Es posible una evaluación completa, que incluye una variedad de escenarios (sonido único, sonidos mixtos, objetos múltiples, fuera de pantalla).
Lograr una alineación audiovisual más precisa y robusta mediante la integración de información temporal.
Limitations:
Se necesita una mayor validación del parámetro de referencia AVATAR y del rendimiento de generalización del modelo TAVLO.
Existe la posibilidad de que no refleje plenamente la complejidad del entorno real.
Se necesita un análisis más profundo de la complejidad computacional y la eficiencia del modelo TAVLO.
👍