Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

Created by
  • Haebom
Category
Empty

저자

Ziyang Wang, Shoubin Yu, Elias Stengel-Eskin, Jaehong Yoon, Feng Cheng, Gedas Bertasius, Mohit Bansal

개요

본 논문은 장시간 비디오 이해를 위한 훈련이 필요 없는 새로운 프레임워크인 VideoTree를 제안합니다. VideoTree는 질의에 적응적인 계층적 비디오 표현을 구축하여 장시간 비디오에 대한 LLM 추론을 수행합니다. 반복적인 과정을 통해 질의와 관련된 정보만 추출하고, 비디오의 계층적 구조를 활용하여 다양한 세부 수준의 질의에 효과적으로 대응합니다. 계층적으로 정리된 질의 관련 정보를 LLM 추론 모델에 제공하여 질의에 대한 답을 생성합니다. 실험 결과, 기존 훈련이 필요 없는 방법들보다 EgoSchema와 NExT-QA에서 더 높은 정확도와 효율성을 달성했으며, Video-MME의 장시간 데이터에서도 GPT-4V 및 다른 많은 MLLM들을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
훈련 없이 장시간 비디오에 대한 효과적인 LLM 추론 프레임워크 제시
질의 적응적이고 계층적인 비디오 표현을 통해 정확도와 효율성 향상
기존 방법 대비 EgoSchema, NExT-QA, Video-MME에서 우수한 성능 달성
비디오 특화 훈련 없이도 높은 정확도(EgoSchema 61.1%, NExT-QA 75.6%) 달성
한계점:
본 논문에서는 VideoTree의 한계점에 대한 구체적인 언급이 없습니다. 추가적인 분석을 통해 한계점을 명확히 밝힐 필요가 있습니다. (예: 특정 유형의 질의에 대한 취약성, 특정 비디오 형식에 대한 제한 등)
👍