Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding

Created by
  • Haebom
Category
Empty

저자

Zhoutong Ye, Mingze Sun, Huan-ang Gao, Chun Yu, Yuanchun Shi

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 성능과 인간의 성능 간 차이를 규명하기 위해 복잡한 실제 세계 시각-언어(VL) 작업으로 구성된 새로운 벤치마크 MOAT를 제안합니다. MOAT는 텍스트 읽기, 계산, 공간 관계 이해, 텍스트 및 시각적 지침의 기반 구축 등 10가지 기본 VL 기능을 통합하는 일반적인 문제 해결을 요구하는 과제로 구성되어 있습니다. 20개 이상의 LMM과 인간을 대상으로 평가한 결과, 인간의 정확도는 82.7%인 반면 최고 성능의 LMM(OpenAI o1)은 38.8%에 그쳤습니다. 본 논문은 LMM과 인간의 성능 차이 원인을 분석하고, 향후 모델 개발을 위한 방향을 제시합니다. 특히, 복잡한 작업에서 어떤 VL 기능이 병목 현상을 일으키는지, 테스트 시간 스케일링이 MOAT 성능을 향상시키는지, 타일링이 LMM의 계산 능력에 어떤 영향을 미치는지 등을 분석합니다. 코드와 데이터는 https://cambrian-yzt.github.io/MOAT 에서 이용 가능합니다.

시사점, 한계점

시사점:
복잡한 실제 세계 VL 작업에 대한 LMM의 성능 한계를 명확히 보여주는 새로운 벤치마크 MOAT 제시.
LMM과 인간의 성능 차이 원인 분석을 통해 향후 모델 개발 방향 제시.
10가지 기본 VL 기능을 기반으로 한 세분화된 LMM 성능 분석 제공.
복잡한 텍스트 및 시각적 지침 기반 구축 능력 평가.
한계점:
MOAT 벤치마크 자체의 한계는 명시적으로 언급되지 않았으나, 벤치마크의 구성 및 평가 방식에 따른 일반화 가능성 제한 등이 잠재적 한계로 존재할 수 있음.
분석된 LMM의 종류와 수가 제한적일 수 있음.
인간 성능과의 비교는 표본 크기 및 실험 설계에 따라 결과 해석에 주의가 필요함.
👍