Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Controllable Hybrid Captioner for Improved Long-form Video Understanding

Created by
  • Haebom

저자

Kuleen Sasse, Efsun Sarioglu Kayi, Arun Reddy

개요

긴 형식의 비디오 데이터는 매우 밀집되고 고차원적입니다. 비디오 내용에 대한 텍스트 기반 요약은 원시 비디오보다 훨씬 더 간결한 방식으로 쿼리 관련 내용을 표현하는 방법을 제공합니다. 또한 텍스트 표현은 최첨단 대규모 언어 모델(LLM)에서 쉽게 처리할 수 있으며, 이를 통해 복잡한 자연어 쿼리에 답하기 위해 비디오 내용에 대한 추론이 가능합니다. 이 문제를 해결하기 위해, 우리는 시공간적 모델링이 계산적으로 가능한 더 짧은 비디오 청크에서 작동하는 비디오 캡셔너에 의해 텍스트 기반 메모리를 점진적으로 구축하는 데 의존합니다. 우리는 짧은 비디오 캡션으로 구성된 활동 로그의 품질을 향상시키는 방법을 탐구합니다. 비디오 캡션은 주로 인간의 행동에 초점을 맞추는 경향이 있으며, 질문은 장면의 다른 정보와 관련될 수 있으므로, 우리는 Vision Language Models (VLM)을 사용하여 정적 장면 설명을 메모리에 추가하고자 합니다. 우리의 비디오 이해 시스템은 LaViLa 비디오 캡셔너를 LLM과 결합하여 비디오에 대한 질문에 답합니다. 우리는 먼저 비디오 내용의 구조를 보다 정확하게 반영하도록 비디오를 의미 있는 세그먼트로 분할하는 다양한 방법을 탐구했습니다. 또한, LLaVA VLM을 사용하여 정적 장면 설명을 캡셔닝 파이프라인에 통합하여, 더욱 상세하고 완전한 캡션 로그를 얻고 텍스트 메모리에서 답변할 수 있는 질문의 범위를 확장했습니다. 마지막으로, 우리는 LaViLa 비디오 캡셔너를 미세 조정하여 동작 및 장면 캡션을 모두 생성하는 데 성공했으며, 두 작업에 대해 별도의 캡셔닝 모델을 사용하는 것에 비해 캡셔닝 파이프라인의 효율성을 크게 향상시켰습니다. 우리의 모델, 제어 가능한 하이브리드 캡셔너는 비디오에서 감지된 장면 변화를 알리는 특수 입력 토큰에 따라 다른 유형의 캡션을 번갈아 사용할 수 있습니다.

시사점, 한계점

비디오 내용에 대한 텍스트 기반 요약을 생성하여 LLM을 통해 복잡한 질의에 응답할 수 있도록 함.
LaViLa 캡셔너를 사용하여 비디오를 캡션화하고, VLM을 통해 정적 장면 정보를 추가하여 캡션의 정확성과 완전성을 높임.
행동 및 장면 캡션을 모두 생성하도록 LaViLa 캡셔너를 미세 조정하여 캡셔닝 파이프라인의 효율성을 향상시킴.
제어 가능한 하이브리드 캡셔너를 통해 장면 변화에 따라 다른 유형의 캡션을 생성할 수 있도록 함.
제한 사항은 구체적으로 언급되지 않음.
👍