COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

작성자

Haebom

카테고리

Empty

저자

Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen

💡 개요

본 논문은 현실의 문서처럼 텍스트와 이미지가 뒤섞인 복잡한 멀티모달 맥락에서 이미지와 텍스트 간의 세밀한 대응 관계를 이해하는 멀티모달 거대 언어 모델(MLLMs)의 능력을 평가하기 위한 새로운 벤치마크인 COHERENCE를 제안합니다. COHERENCE는 네 가지 대표적인 영역의 뒤섞인 이미지-텍스트 데이터를 활용하며, 6,161개의 고품질 질문으로 구성되어 있습니다. 또한, 6가지 유형의 오류 분석을 통해 MLLMs의 뒤섞인 멀티모달 이해 능력 부족을 세밀하게 파악할 수 있도록 합니다.

🔑 시사점 및 한계

•

복잡한 실제 멀티모달 환경에서의 MLLMs 성능 평가에 필요한 새로운 벤치마크를 제시합니다.

•

MLLMs가 개별 이미지 및 텍스트를 이해하는 것을 넘어, 뒤섞인 맥락에서 이미지와 텍스트 간의 세밀한 연관성을 파악하고 추론하는 능력을 평가할 수 있습니다.

•

현재 MLLMs의 뒤섞인 멀티모달 이해 과정에서 발생하는 다양한 오류 유형을 분류하고 분석하는 틀을 제공하여 향후 모델 개선 방향을 제시합니다.

•

벤치마크의 다양한 영역을 다루고 있지만, 더 넓고 다양한 실제 시나리오를 포괄하기 위한 추가적인 도메인 확장 및 데이터셋 구축이 필요합니다.

PDF 보기

Made with Slashpage