Este artículo señala las deficiencias de los estudios existentes de localización audiovisual (AVL), a saber, descuidar la dinámica temporal y simplificar excesivamente los escenarios, y propone un nuevo punto de referencia de AVL centrado en video, AVATAR, que incorpora información temporal de alta resolución para abordarlas. AVATAR está diseñado para permitir una evaluación más completa de los modelos AVL al cubrir cuatro escenarios: sonido único, sonidos mixtos, objetos múltiples y fuera de pantalla. Además, presentamos TAVLO, un nuevo modelo AVL centrado en video que incorpora explícitamente información temporal. Los resultados experimentales muestran que TAVLO logra una alineación audiovisual robusta y precisa al aprovechar el modelado temporal de alta resolución, mientras que los métodos existentes tienen dificultades para rastrear los cambios temporales debido a su dependencia de las características globales de audio y el mapeo cuadro por cuadro. Esto demuestra experimentalmente la importancia de la dinámica temporal en AVL y presenta un nuevo estándar para AVL centrado en video.