본 논문은 현대 비디오 이해 시스템이 장면 분류, 객체 탐지, 단편 비디오 검색과 같은 작업에서 뛰어난 성능을 보이지만, 실시간 애플리케이션에서 비디오 분석의 중요성이 증가함에 따라 비디오 스트림을 해석할 뿐만 아니라 이벤트에 대해 추론하고 정보에 입각한 조치를 취하는 사전 예방적 비디오 에이전트에 대한 필요성이 커지고 있음을 지적한다. 이러한 방향으로의 주요 장애물은 시간적 추론이며, 딥 러닝 모델은 개별 프레임이나 짧은 클립 내의 패턴을 인식하는 데 상당한 발전을 이루었지만, 행동 기반 의사결정에 중요한 시간 경과에 따른 이벤트의 순서 및 의존성을 이해하는 데 어려움을 겪는다. 이러한 한계를 해결하려면 기존의 딥 러닝 방식을 넘어서는 것이 필요하다. 본 논문에서는 신경 기호적 관점을 통해 이러한 과제에 접근해야 한다고 제시하며, 이는 비디오 쿼리를 원자적 이벤트로 분해하고, 일관된 시퀀스로 구성하고, 시간적 제약 조건에 따라 검증하는 것을 포함한다. 이러한 접근 방식은 해석력을 향상시키고, 구조적 추론을 가능하게 하며, 시스템 동작에 대한 더 강력한 보장을 제공할 수 있다. 따라서 본 논문은 (1) 자율적인 비디오 검색 및 분석, (2) 원활한 실제 세계 상호 작용, (3) 고급 콘텐츠 생성이라는 세 가지 핵심 기능을 통합하는 차세대 지능형 비디오 에이전트 개발을 위한 큰 과제를 연구 커뮤니티에 제시한다. 이러한 세 가지 기둥을 해결함으로써 수동적 인식에서 추론하고, 예측하고, 행동하는 지능형 비디오 에이전트로 전환하여 비디오 이해의 경계를 넓힐 수 있다.