Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Augmentation de MomentMix avec DETR sensible à la longueur pour une récupération de moment robuste dans le temps

Created by
  • Haebom

Auteur

Parc Seojeong, Jiho Choi, Kyungjune Baek, Hyunjung Shim

Contour

Cet article étudie la recherche de moments vidéo (MR), qui identifie des moments précis dans les vidéos à partir de requêtes en langage naturel. Avec l'augmentation de la recherche d'informations sur des plateformes comme YouTube, la demande pour cette technologie augmente également. Si les modèles basés sur DETR ont récemment amélioré leurs performances, ils peinent à localiser précisément les moments courts. Dans cet article, nous analysons le manque de diversité des caractéristiques dans les moments courts et proposons MomentMix, qui utilise deux stratégies d'augmentation des données (ForegroundMix et BackgroundMix), pour résoudre ce problème. De plus, nous constatons que la précision de la prédiction de la localisation centrale pour les moments courts est faible et proposons un décodeur sensible à la longueur qui prend en compte les informations de longueur grâce à un nouveau processus de correspondance bipartite. Nous démontrons expérimentalement que la méthode proposée surpasse les méthodes existantes basées sur DETR sur des jeux de données de référence, démontrant ainsi son efficacité pour localiser les moments courts. La méthode proposée atteint des performances de pointe en R1 et mAP sur le jeu de données QVHighlights, et atteint R1@0,7 sur les jeux de données TACoS et Charades-STA.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle technique d'augmentation de données (MomentMix) et un décodeur sensible à la longueur qui contribuent à améliorer la précision de la récupération de courts moments vidéo.
Obtenir des performances SOTA sur les ensembles de données QVHighlights, TACoS et Charades-STA.
Nous analysons les problèmes de déficit de diversité des caractéristiques à court terme et de biais de prédiction de l'emplacement central et proposons des solutions.
Assurer la reproductibilité et l’évolutivité de la recherche grâce à la divulgation du code source ouvert.
Limitations:
L'efficacité de la méthode proposée pourrait être limitée à un ensemble de données de référence spécifique. Des expériences supplémentaires sur divers ensembles de données sont nécessaires.
Augmentation potentielle du coût de calcul en raison de la complexité accrue du décodeur sensible à la longueur.
Il est nécessaire d’évaluer les performances de généralisation pour des données vidéo plus diverses et plus complexes.
👍