Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HERMES : compréhension temporelle-cohérente à long terme avec épisodes et sémantique

Created by
  • Haebom

Auteur

Guetera Josmy Faure, Jia-Fong Yeh, Min-Hung Chen, Hung-Ting Su, Shang-Hong Lai, Winston H. Hsu

Contour

HERMES est un article qui présente une nouvelle approche de la compréhension des vidéos longues. Son objectif est de surmonter les limites des méthodes d'analyse vidéo courtes existantes en résolvant des problèmes tels que la capture des dépendances à long terme, le traitement efficace des informations redondantes et l'extraction de concepts sémantiques de grande dimension. À cette fin, nous proposons deux modules, Episodic COmpressor (ECO) et Semantics ReTRiever (SeTR), qui reflètent plus précisément les processus cognitifs humains. ECO agrège efficacement les représentations de niveaux micro et semi-macro afin de réduire les coûts de calcul tout en préservant les dépendances temporelles, tandis que SeTR se concentre sur des contextes plus larges pour enrichir les représentations d'informations sémantiques tout en réduisant considérablement les dimensions des caractéristiques et en préservant les informations pertinentes de niveau macro. HERMES peut être intégré aux modèles de pointe existants pour améliorer les performances, réduisant la latence d'inférence jusqu'à 43 % et l'utilisation de la mémoire jusqu'à 46 %. En tant que système autonome, il atteint des performances de pointe sur plusieurs benchmarks de compréhension des vidéos longues.

Takeaways, Limitations

Takeaways:
Une approche nouvelle, efficace et efficiente pour comprendre les vidéos de long métrage est présentée.
Performances améliorées et consommation de ressources réduite par rapport aux modèles existants (latence d'inférence et utilisation de la mémoire réduites).
Atteindre des performances de pointe dans des environnements d'apprentissage sans tir et entièrement supervisés.
La modularisation des modules ECO et SeTR augmente l'applicabilité à divers modèles.
Limitations:
Absence de référence explicite à __T284664_____ présenté dans l'article.
Dégradation potentielle des performances pour certains types de vidéos de long métrage.
Une validation supplémentaire des performances de généralisation des modules ECO et SeTR est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’applicabilité à des scènes complexes du monde réel.
👍