MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
Created by
Haebom
Category
Empty
저자
Liuyue Xie, George Z. Wei, Avik Kuthiala, Ce Zheng, Ananya Bal, Mosam Dabhi, Liting Wen, Taru Rustagi, Ethan Lai, Sushil Khyalia, Rohan Choudhury, Morteza Ziyadi, Xu Zhang, Hao Yang, Laszlo A. Jeni
개요
MAVERIX는 비디오와 오디오 정보의 통합을 필요로 하는 과제를 통해 다중 모달 모델을 평가하도록 명시적으로 설계된 700개의 비디오와 2,556개의 질문으로 구성된 새로운 벤치마크입니다. 기존 모델들이 언어 또는 시각 및 언어 모달리티에만 초점을 맞춘 것과 달리, MAVERIX는 시청각 정보의 통합을 평가하는 데 초점을 맞추어 인간의 다중 감각적 지각 경험을 모방합니다. 최첨단 모델(Gemini 1.5 Pro, o1 등)을 사용한 실험 결과, 인간 수준(약 70% 정확도)에 근접한 성능을 보였으며, 인간 전문가는 거의 최고 수준(95.1%)의 성능을 달성했습니다. 표준화된 평가 프로토콜, 엄격하게 주석이 달린 파이프라인 및 공개 툴킷을 제공하여 시청각 다중 모달 지능 발전을 위한 까다로운 테스트베드를 구축합니다.
시사점, 한계점
•
시사점:
◦
시청각 정보 통합 능력을 종합적으로 평가할 수 있는 최초의 벤치마크 제시.
◦
인간 수준의 성능에 근접한 최첨단 모델의 성능을 보여줌.
◦
표준화된 평가 프로토콜, 주석 달린 파이프라인 및 공개 툴킷 제공으로 연구 발전 촉진.
•
한계점:
◦
아직 제시된 벤치마크의 규모가 충분히 크지 않을 수 있음 (700개 비디오, 2,556개 질문).