Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Audio-centric Video Understanding Benchmark without Text Shortcut

Created by
  • Haebom

저자

Yudong Yang, Jimin Zhuang, Guangzhi Sun, Changli Tang, Yixuan Li, Peihan Li, Yifan Jiang, Wei Li, Zejun Ma, Chao Zhang

개요

본 논문은 오디오 정보에 중점을 둔 비디오 이해 벤치마크인 AVUT(Audio-centric Video Understanding Benchmark)를 제안합니다. 기존의 시각 정보 중심의 접근 방식에서 벗어나, 오디오가 제공하는 맥락, 감정적 단서, 의미 정보 등을 비디오 이해에 중요한 요소로 강조합니다. AVUT는 오디오 콘텐츠와 시청각 상호작용에 대한 이해를 종합적으로 평가하는 다양한 과제들을 포함하며, 기존 벤치마크에서 나타나는 질문 텍스트만으로 정답을 유추할 수 있는 "텍스트 지름길 문제"를 해결하기 위해 답변 순열 기반 필터링 메커니즘을 제시합니다. 다양한 오픈소스 및 독점 멀티모달 LLM들을 대상으로 평가를 수행하고, 시청각 LLM의 결함을 분석합니다. 데모와 데이터는 https://github.com/lark-png/AVUT 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
오디오 정보의 중요성을 강조하는 새로운 비디오 이해 벤치마크 AVUT 제시
기존 벤치마크의 한계점인 "텍스트 지름길 문제" 해결을 위한 답변 순열 기반 필터링 메커니즘 제안
다양한 멀티모달 LLM의 오디오-비디오 이해 능력에 대한 종합적인 평가 및 분석 제공
오디오 중심의 비디오 이해 연구에 대한 새로운 방향 제시
한계점:
AVUT 벤치마크의 범용성 및 확장성에 대한 추가 연구 필요
제시된 답변 순열 기반 필터링 메커니즘의 효율성 및 일반화 가능성에 대한 추가 검증 필요
평가에 사용된 멀티모달 LLM의 종류 및 다양성에 대한 한계 존재
👍