V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction
Created by
Haebom
Category
Empty
저자
Yiming Zhao, Yu Zeng, Yukun Qi, YaoYang Liu, Lin Chen, Zehui Chen, Xikun Bao, Jie Zhao, Feng Zhao
개요
본 논문은 대규모 비전-언어 모델(LVLMs)의 비디오 이해 능력 평가를 위한 새로운 벤치마크인 Video Visual Prompt Benchmark(V2P-Bench)를 제안합니다. 기존 벤치마크들이 복잡한 언어적 참조를 필요로 하는 텍스트 프롬프트에 의존하는 한계를 극복하고자, V2P-Bench는 다양한 시각적 프롬프트를 사용하여 사람과 모델 간의 상호작용에 초점을 맞춥니다. 980개의 고유 비디오와 1,172개의 질의응답 쌍을 포함하며, 5가지 주요 작업과 12가지 차원에 걸쳐 인스턴스 수준의 세분화된 이해를 평가합니다. GPT-4o와 Gemini-1.5-Pro와 같은 최신 모델들의 성능이 인간 전문가보다 훨씬 낮게 나타나(각각 65.4%, 67.9% vs. 88.3%), LVLMs의 비디오 시각적 프롬프트 이해 능력의 부족을 보여줍니다. V2P-Bench는 다중 모달 인간-모델 상호 작용 및 비디오 이해 평가 발전의 기반이 될 것으로 기대됩니다.
시사점, 한계점
•
시사점:
◦
기존 텍스트 프롬프트 기반 비디오 이해 평가의 한계를 지적하고, 시각적 프롬프트 기반의 새로운 평가 기준을 제시합니다.
◦
LVLMs의 비디오 이해 능력에 대한 현실적인 성능 수준을 제시하고, 향상의 필요성을 강조합니다.
◦
다중 모달 인간-모델 상호작용 연구에 중요한 기여를 할 수 있는 새로운 벤치마크를 제공합니다.
◦
인스턴스 수준의 세분화된 비디오 이해 평가를 가능하게 합니다.
•
한계점:
◦
V2P-Bench의 데이터셋 규모가 더 확장될 필요가 있습니다.
◦
다양한 유형의 비디오와 시각적 프롬프트에 대한 일반화 성능을 추가적으로 평가해야 합니다.
◦
현재 벤치마크에 포함된 작업 및 차원 외에 다른 중요한 요소들을 고려해야 할 수 있습니다.