HERMES est un article qui présente une nouvelle approche de la compréhension des vidéos longues. Son objectif est de surmonter les limites des méthodes d'analyse vidéo courtes existantes en résolvant des problèmes tels que la capture des dépendances à long terme, le traitement efficace des informations redondantes et l'extraction de concepts sémantiques de grande dimension. À cette fin, nous proposons deux modules, Episodic COmpressor (ECO) et Semantics ReTRiever (SeTR), qui reflètent plus précisément les processus cognitifs humains. ECO agrège efficacement les représentations de niveaux micro et semi-macro afin de réduire les coûts de calcul tout en préservant les dépendances temporelles, tandis que SeTR se concentre sur des contextes plus larges pour enrichir les représentations d'informations sémantiques tout en réduisant considérablement les dimensions des caractéristiques et en préservant les informations pertinentes de niveau macro. HERMES peut être intégré aux modèles de pointe existants pour améliorer les performances, réduisant la latence d'inférence jusqu'à 43 % et l'utilisation de la mémoire jusqu'à 46 %. En tant que système autonome, il atteint des performances de pointe sur plusieurs benchmarks de compréhension des vidéos longues.