Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

Created by
  • Haebom

저자

Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu

개요

MMMG는 다중 모달 생성(multimodal generation)을 위한 포괄적이고 사람 중심의 벤치마크입니다. 이미지, 오디오, 텍스트와 이미지의 혼합, 텍스트와 오디오의 혼합 등 4가지 모달 조합에 걸쳐 49가지 과제(29가지는 새롭게 개발)를 포함하며, 추론, 제어 가능성 등 생성 모델의 주요 기능을 체계적으로 평가하기 위한 937개의 지침을 제공합니다. 모델과 프로그램의 조합을 통해 신뢰할 수 있는 자동 평가를 가능하게 하면서도, 생성 모델에 상당한 어려움을 제시하는 과제에 중점을 둡니다. 광범위한 검증 결과, MMMG는 사람의 평가와 94.3%의 평균 일치율을 달성하여 높은 정합성을 보여줍니다. 24개의 다중 모달 생성 모델에 대한 벤치마킹 결과, 최첨단 모델인 GPT Image는 이미지 생성에서 78.3%의 정확도를 달성했지만, 다중 모달 추론 및 혼합 생성에서는 부족한 모습을 보였습니다. 또한 오디오 생성 분야에는 상당한 개선 여지가 있음을 시사합니다.

시사점, 한계점

시사점:
다중 모달 생성 모델의 성능을 신뢰성 있게 자동 평가할 수 있는 새로운 벤치마크 MMMG 제시.
사람의 평가와 높은 일치율(94.3%)을 보이는 자동 평가 시스템 구축.
다중 모달 추론 및 혼합 생성 분야에서의 개선 필요성 제기.
오디오 생성 분야의 발전 방향 제시.
한계점:
현재 벤치마크에 포함된 24개의 모델만을 대상으로 평가되었으므로, 더욱 다양한 모델에 대한 평가가 필요.
새롭게 개발된 29개의 과제 외에 추가적인 과제 개발을 통해 벤치마크의 포괄성 확대 필요.
특정 모달 조합 및 과제에 대한 편향성 존재 가능성.
👍