Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

Created by
  • Haebom
Category
Empty

저자

Gailun Zeng, Ziyang Luo, Hongzhan Lin, Yuchen Tian, Kaixin Li, Ziyang Gong, Jianxiong Guo, Jing Ma

개요

본 논문은 대규모 멀티모달 모델(LMM)의 비판 능력을 평가하기 위한 MM-CRITIC이라는 포괄적인 벤치마크를 소개합니다. 캡셔닝 및 시각적 추론과 같은 작업에서 LMM의 증가하는 능력에도 불구하고 멀티모달 비판에 대한 연구는 부족합니다. MM-CRITIC은 기본, 수정, 비교의 여러 차원에서 LMM의 비판 능력을 평가하며, 8가지 주요 작업 유형과 500개 이상의 작업을 포괄합니다. 4471개의 샘플로 구성된 이 벤치마크는 다양한 모델 크기를 가진 여러 LMM의 응답을 수집합니다. 신뢰할 수 있는 평가를 위해 전문가가 정보를 제공한 정답을 점수 매기기 기준에 통합하여 GPT-4o가 응답에 주석을 달고 신뢰할 수 있는 판단을 위한 기준으로 참조 비판을 생성하도록 합니다. 광범위한 실험을 통해 MM-CRITIC의 효과를 입증하고 주요 LMM의 비판 능력을 여러 차원에서 포괄적으로 평가합니다.

시사점, 한계점

MM-CRITIC은 LMM의 비판 능력을 평가하기 위한 새로운 벤치마크를 제공합니다.
벤치마크는 기본, 수정, 비교 등 다양한 차원을 포괄합니다.
전문가 기반의 정답을 사용하여 평가의 신뢰성을 높입니다.
LMM의 응답 품질과 비판 능력 간의 상관관계를 보여줍니다.
다양한 평가 차원에서의 비판 난이도 차이를 분석합니다.
코드와 데이터는 공개되어 있습니다.
논문의 구체적인 한계점은 제시되지 않았습니다.
👍