Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment

Created by
  • Haebom

저자

Darshana Saravanan, Varun Gupta, Darshan Singh, Zeeshan Khan, Vineet Gandhi, Makarand Tapaswi

개요

본 논문은 짧은 비디오에서의 구성적 추론 능력을 평가하기 위한 새로운 벤치마크 VELOCITI를 제안합니다. VELOCITI는 비디오-언어 모델(Video-LLM)의 에이전트, 액션, 그리고 이들의 연관성에 대한 이해를 분리하여 평가하는 Video-Language Entailment(VLE) 설정을 채택합니다. 특히, 정확한 분류를 요구하는 StrictVLE를 제안하고, 여러 모델들을 평가하여 최고 성능 모델조차도 인간 수준의 정확도에 훨씬 못 미침을 보여줍니다. 액션 이해가 에이전트 이해보다 뒤처지며, 비디오에 등장하는 개체를 사용하여 생성된 부정적인 캡션이 순수한 텍스트 조작으로 생성된 캡션보다 성능이 낮다는 것을 발견했습니다. 또한 ClassicVLE 및 객관식 평가의 한계를 보여주고 StrictVLE의 우수성을 강조하며, 다중 프레임의 시각적 입력을 필요로 하는 벤치마크의 특징을 통해 비디오-언어 구성적 추론 연구에 적합함을 검증합니다.

시사점, 한계점

시사점:
짧은 비디오에 대한 구성적 추론 능력 평가를 위한 새로운 벤치마크 VELOCITI 제시
현재 Video-LLM의 구성적 추론 능력이 인간 수준에 크게 못 미침을 밝힘
액션 이해가 에이전트 이해보다 어렵다는 점을 발견
StrictVLE 평가 방식의 효용성 제시
다중 프레임 시각 입력의 중요성 강조
한계점:
VELOCITI 벤치마크 자체의 한계점은 논문에서 명시적으로 언급되지 않음. 추후 연구를 통해 개선될 여지가 있음.
평가에 사용된 모델의 종류와 범위가 제한적일 수 있음. 다양한 모델에 대한 추가적인 평가가 필요.
👍