Cet article souligne les lacunes des études précédentes en localisation audiovisuelle (LAV), notamment la négligence de la dynamique temporelle et la simplification excessive des scénarios. Il propose un nouveau benchmark LAV centré sur la vidéo, AVATAR, qui intègre des informations temporelles haute résolution pour y remédier. AVATAR est conçu pour permettre une évaluation plus complète des modèles LAV en couvrant quatre scénarios : son unique, sons mixtes, objets multiples et hors champ. De plus, nous présentons TAVLO, un nouveau modèle LAV centré sur la vidéo qui intègre explicitement les informations temporelles. Les résultats expérimentaux montrent que TAVLO permet un alignement audiovisuel robuste et précis grâce à une modélisation temporelle haute résolution, tandis que les méthodes précédentes peinent à suivre les changements temporels en raison de leur dépendance aux caractéristiques audio globales et au mappage image par image. Cela prouve expérimentalement l'importance de la dynamique temporelle en LAV et présente une nouvelle norme pour la LAV centré sur la vidéo.