본 논문에서는 세밀한 시간적 기반을 갖는 비디오 이해에 어려움을 겪는 기존의 비디오 거대 언어 모델(Video-LLM)의 한계를 해결하기 위해, 세밀한 수준에서 특정 비디오 순간을 인지하고 추론하는 새로운 Video-LLM인 Grounded-VideoLLM을 제시합니다. Grounded-VideoLLM은 프레임 간의 관계를 인코딩하는 추가적인 시간적 스트림과 특정 시간 정보가 풍부하게 포함된 이산적인 시간 토큰을 도입하여 기존 모델의 시간적 모델링 및 타임스탬프 표현의 부족 문제를 해결합니다. 다단계 학습 방식을 통해 모델을 훈련하고, 자동 주석 파이프라인을 통해 구축된 grounded VideoQA 데이터셋을 활용하여 시간적 추론 능력을 향상시킵니다. 실험 결과, Grounded-VideoLLM은 시간 문장 기반 지정, 밀집 비디오 캡션 생성, grounded VideoQA와 같은 세밀한 기반 지정 작업에서 뛰어난 성능을 보이며, 일반적인 비디오 이해를 위한 다용도 비디오 어시스턴트로서의 가능성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존 Video-LLM의 시간적 모델링 및 타임스탬프 표현의 한계를 극복하는 새로운 아키텍처를 제시합니다.
◦
시간적 문장 기반 지정, 밀집 비디오 캡션 생성, grounded VideoQA 등 세밀한 시간적 기반 지정 작업에서 우수한 성능을 달성합니다.
◦
다양한 비디오 이해 작업에 활용 가능한 다용도 비디오 어시스턴트로서의 가능성을 제시합니다.