Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction

Created by
  • Haebom
Category
Empty

저자

Yiming Zhao, Yu Zeng, Yukun Qi, YaoYang Liu, Lin Chen, Zehui Chen, Xikun Bao, Jie Zhao, Feng Zhao

개요

본 논문은 대규모 비전-언어 모델(LVLMs)의 비디오 이해 능력 평가를 위한 새로운 벤치마크인 Video Visual Prompt Benchmark(V2P-Bench)를 제안합니다. 기존 벤치마크들이 복잡한 언어적 참조를 필요로 하는 텍스트 프롬프트에 의존하는 한계를 극복하고자, V2P-Bench는 다양한 시각적 프롬프트를 사용하여 사람과 모델 간의 상호작용에 초점을 맞춥니다. 980개의 고유 비디오와 1,172개의 질의응답 쌍을 포함하며, 5가지 주요 작업과 12가지 차원에 걸쳐 인스턴스 수준의 세분화된 이해를 평가합니다. GPT-4o와 Gemini-1.5-Pro와 같은 최신 모델들의 성능이 인간 전문가보다 훨씬 낮게 나타나(각각 65.4%, 67.9% vs. 88.3%), LVLMs의 비디오 시각적 프롬프트 이해 능력의 부족을 보여줍니다. V2P-Bench는 다중 모달 인간-모델 상호 작용 및 비디오 이해 평가 발전의 기반이 될 것으로 기대됩니다.

시사점, 한계점

시사점:
기존 텍스트 프롬프트 기반 비디오 이해 평가의 한계를 지적하고, 시각적 프롬프트 기반의 새로운 평가 기준을 제시합니다.
LVLMs의 비디오 이해 능력에 대한 현실적인 성능 수준을 제시하고, 향상의 필요성을 강조합니다.
다중 모달 인간-모델 상호작용 연구에 중요한 기여를 할 수 있는 새로운 벤치마크를 제공합니다.
인스턴스 수준의 세분화된 비디오 이해 평가를 가능하게 합니다.
한계점:
V2P-Bench의 데이터셋 규모가 더 확장될 필요가 있습니다.
다양한 유형의 비디오와 시각적 프롬프트에 대한 일반화 성능을 추가적으로 평가해야 합니다.
현재 벤치마크에 포함된 작업 및 차원 외에 다른 중요한 요소들을 고려해야 할 수 있습니다.
인간 전문가의 평가 기준에 대한 주관성을 고려해야 합니다.
👍