긴 형식의 비디오 데이터는 매우 밀집되고 고차원적입니다. 비디오 내용에 대한 텍스트 기반 요약은 원시 비디오보다 훨씬 더 간결한 방식으로 쿼리 관련 내용을 표현하는 방법을 제공합니다. 또한 텍스트 표현은 최첨단 대규모 언어 모델(LLM)에서 쉽게 처리할 수 있으며, 이를 통해 복잡한 자연어 쿼리에 답하기 위해 비디오 내용에 대한 추론이 가능합니다. 이 문제를 해결하기 위해, 우리는 시공간적 모델링이 계산적으로 가능한 더 짧은 비디오 청크에서 작동하는 비디오 캡셔너에 의해 텍스트 기반 메모리를 점진적으로 구축하는 데 의존합니다. 우리는 짧은 비디오 캡션으로 구성된 활동 로그의 품질을 향상시키는 방법을 탐구합니다. 비디오 캡션은 주로 인간의 행동에 초점을 맞추는 경향이 있으며, 질문은 장면의 다른 정보와 관련될 수 있으므로, 우리는 Vision Language Models (VLM)을 사용하여 정적 장면 설명을 메모리에 추가하고자 합니다. 우리의 비디오 이해 시스템은 LaViLa 비디오 캡셔너를 LLM과 결합하여 비디오에 대한 질문에 답합니다. 우리는 먼저 비디오 내용의 구조를 보다 정확하게 반영하도록 비디오를 의미 있는 세그먼트로 분할하는 다양한 방법을 탐구했습니다. 또한, LLaVA VLM을 사용하여 정적 장면 설명을 캡셔닝 파이프라인에 통합하여, 더욱 상세하고 완전한 캡션 로그를 얻고 텍스트 메모리에서 답변할 수 있는 질문의 범위를 확장했습니다. 마지막으로, 우리는 LaViLa 비디오 캡셔너를 미세 조정하여 동작 및 장면 캡션을 모두 생성하는 데 성공했으며, 두 작업에 대해 별도의 캡셔닝 모델을 사용하는 것에 비해 캡셔닝 파이프라인의 효율성을 크게 향상시켰습니다. 우리의 모델, 제어 가능한 하이브리드 캡셔너는 비디오에서 감지된 장면 변화를 알리는 특수 입력 토큰에 따라 다른 유형의 캡션을 번갈아 사용할 수 있습니다.