MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding
Created by
Haebom
Category
Empty
저자
Zhoutong Ye, Mingze Sun, Huan-ang Gao, Chun Yu, Yuanchun Shi
개요
본 논문은 대규모 다중 모달 모델(LMMs)의 성능과 인간의 성능 간 차이를 규명하기 위해 복잡한 실제 세계 시각-언어(VL) 작업으로 구성된 새로운 벤치마크 MOAT를 제안합니다. MOAT는 텍스트 읽기, 계산, 공간 관계 이해, 텍스트 및 시각적 지침의 기반 구축 등 10가지 기본 VL 기능을 통합하는 일반적인 문제 해결을 요구하는 과제로 구성되어 있습니다. 20개 이상의 LMM과 인간을 대상으로 평가한 결과, 인간의 정확도는 82.7%인 반면 최고 성능의 LMM(OpenAI o1)은 38.8%에 그쳤습니다. 본 논문은 LMM과 인간의 성능 차이 원인을 분석하고, 향후 모델 개발을 위한 방향을 제시합니다. 특히, 복잡한 작업에서 어떤 VL 기능이 병목 현상을 일으키는지, 테스트 시간 스케일링이 MOAT 성능을 향상시키는지, 타일링이 LMM의 계산 능력에 어떤 영향을 미치는지 등을 분석합니다. 코드와 데이터는 https://cambrian-yzt.github.io/MOAT 에서 이용 가능합니다.