Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Qu'est-ce qui produit ce son en ce moment ? Localisation audiovisuelle centrée sur la vidéo

Created by
  • Haebom

Auteur

Hahyeon Choi, Junhoo Lee, Nojun Kwak

Contour

Cet article souligne les lacunes des études précédentes en localisation audiovisuelle (LAV), notamment la négligence de la dynamique temporelle et la simplification excessive des scénarios. Il propose un nouveau benchmark LAV centré sur la vidéo, AVATAR, qui intègre des informations temporelles haute résolution pour y remédier. AVATAR est conçu pour permettre une évaluation plus complète des modèles LAV en couvrant quatre scénarios : son unique, sons mixtes, objets multiples et hors champ. De plus, nous présentons TAVLO, un nouveau modèle LAV centré sur la vidéo qui intègre explicitement les informations temporelles. Les résultats expérimentaux montrent que TAVLO permet un alignement audiovisuel robuste et précis grâce à une modélisation temporelle haute résolution, tandis que les méthodes précédentes peinent à suivre les changements temporels en raison de leur dépendance aux caractéristiques audio globales et au mappage image par image. Cela prouve expérimentalement l'importance de la dynamique temporelle en LAV et présente une nouvelle norme pour la LAV centré sur la vidéo.

Takeaways, Limitations

Takeaways:
Présentation d'une nouvelle direction pour la recherche AVL en présentant un benchmark AVL centré sur la vidéo (AVATAR) et un modèle (TAVLO) utilisant des informations temporelles haute résolution.
Résout le problème du manque de prise en compte de la dynamique temporelle dans le modèle AVL existant, Limitations.
ÉValuation complète possible, incluant une variété de scénarios (son unique, sons mixtes, objets multiples, hors écran).
Obtenir un alignement audiovisuel plus précis et plus robuste grâce à l'intégration des informations temporelles.
Limitations:
Une validation supplémentaire du benchmark AVATAR et des performances de généralisation du modèle TAVLO est nécessaire.
Il est possible que cela ne reflète pas pleinement la complexité de l’environnement réel.
Une analyse plus approfondie de la complexité informatique et de l’efficacité du modèle TAVLO est nécessaire.
👍