HERMES는 장편 비디오 이해를 위한 새로운 접근 방식을 제시하는 논문입니다. 기존의 단편 비디오 분석 방법의 한계를 넘어 장기 의존성 포착, 중복 정보의 효율적인 처리, 고차원 의미 개념 추출 등의 문제점을 해결하고자 합니다. 이를 위해, 인간의 인지 과정을 더 정확하게 반영하는 두 가지 모듈, Episodic COmpressor (ECO)와 Semantics ReTRiever (SeTR)을 제안합니다. ECO는 마이크로에서 세미-매크로 수준까지의 표현을 효율적으로 집계하여 계산 비용을 줄이면서 시간적 의존성을 유지하고, SeTR은 더 넓은 맥락에 집중하여 의미 정보로 표현을 풍부하게 하면서 특징 차원을 크게 줄이고 관련 매크로 수준 정보를 유지합니다. HERMES는 기존 최첨단 모델에 통합하여 성능을 향상시키고 추론 지연 시간을 최대 43%, 메모리 사용량을 최대 46%까지 줄일 수 있으며, 독립형 시스템으로서도 여러 장편 비디오 이해 벤치마크에서 최첨단 성능을 달성합니다.