본 논문은 실시간 비디오 스트림 이해를 위한 새로운 프레임워크인 Aha를 제안합니다. Aha는 자연어로 기술된 작업에 대한 각 비디오 프레임의 관련성을 예측하는 자기회귀 하이라이트 감지 프레임워크입니다. 미래 프레임에 접근하지 않고도 다중 모달 비전-언어 모델과 경량의 분리된 헤드를 사용하며, 대규모의 정제된 인간 중심 비디오 레이블 데이터셋으로 학습됩니다. 무한 길이의 스트림에서도 일정한 메모리 사용량을 유지하는 Dynamic SinkCache 메커니즘을 도입하여 확장성을 확보했습니다. TVSum과 Mr. Hisum 벤치마크에서 기존의 오프라인 방식 및 비디오-언어 모델을 능가하는 성능을 달성했습니다. 로봇 애플리케이션에서의 실시간 추론 모듈로서의 잠재력도 실험적으로 확인했습니다.