Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ACVUBench: Audio-Centric Video Understanding Benchmark

Created by
  • Haebom
Category
Empty

저자

Yudong Yang, Jimin Zhuang, Guangzhi Sun, Changli Tang, Yixuan Li, Peihan Li, Yifan Jiang, Wei Li, Zejun Ma, Chao Zhang

개요

본 논문은 오디오 정보에 중점을 둔 비디오 이해 벤치마크인 ACVUBench를 제안합니다. 기존의 오디오-비주얼 대규모 언어 모델(LLM)들이 오디오를 보조적인 정보로만 활용하는 것에 반해, ACVUBench는 오디오 정보의 중요성을 강조하며, 18개 도메인에 걸친 2,662개의 비디오와 13,000개 이상의 고품질 수동 주석/검증 질문-답변 쌍을 포함합니다. 여러 오디오 중심 과제를 통해 오디오 콘텐츠와 오디오-비주얼 상호작용에 대한 이해를 종합적으로 평가하며, 다양한 오픈소스 및 독점적 다중 모달 LLM에 대한 평가와 오디오-비주얼 LLM의 결점 분석을 수행합니다. 데모는 GitHub에서 확인 가능합니다.

시사점, 한계점

시사점:
오디오 정보의 중요성을 강조하는 새로운 비디오 이해 벤치마크(ACVUBench) 제시.
다양한 도메인과 고품질 데이터를 활용한 폭넓은 평가 가능.
오디오 중심 과제를 통해 오디오-비주얼 LLM의 결점 분석 및 개선 방향 제시.
한계점:
벤치마크의 규모가 다른 대규모 벤치마크에 비해 상대적으로 작을 수 있음.
특정 언어 또는 도메인에 편향될 가능성 존재.
평가된 LLM의 종류 및 버전에 따라 결과의 일반화 가능성에 제한이 있을 수 있음.
👍