본 논문은 다중 모달 대규모 언어 모델(MLLM)의 연관성(association) 능력을 평가하기 위한 새로운 벤치마크를 제안한다. 기존 연구들이 MLLM의 환각(hallucination) 등의 결함에 초점을 맞춘 것과 달리, 본 논문은 인간의 기본적인 능력인 관찰과 기존 기억 간의 연관 짓기 능력인 '연관성'에 주목한다. 형용사와 동사의 의미 개념을 기반으로 연관성 과제를 공식화하고, 데이터 주석 없이 일반 데이터셋을 변환하는 편리한 방법을 제시하여 표준 벤치마크를 구축한다. 단일 단계, 동시, 비동시 연관성 등 세 가지 수준의 연관성 과제를 설정하고, 오픈소스 및 클로즈드소스 MLLM, 최첨단 MoE 모델을 포함한 다양한 모델들의 제로샷 연관성 능력을 종합적으로 조사한다. 결과적으로 현재 오픈소스 MLLM은 제시된 연관성 과제에서 인간에 비해 능력이 현저히 부족하며, GPT-4V(vision)와 같은 최첨단 모델조차도 상당한 차이를 보인다는 것을 확인한다. 본 벤치마크가 향후 MLLM 연구에 기여할 것으로 기대한다.