Sign In

The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs

Created by
  • Haebom
Category
Empty

저자

Hong Li, Nanxi Li, Yuanjie Chen, Jianbin Zhu, Qinlu Guo, Cewu Lu, Yong-Lu Li

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 연관성(association) 능력을 평가하기 위한 새로운 벤치마크를 제안한다. 기존 연구들이 MLLM의 환각(hallucination) 등의 결함에 초점을 맞춘 것과 달리, 본 논문은 인간의 기본적인 능력인 관찰과 기존 기억 간의 연관 짓기 능력인 '연관성'에 주목한다. 형용사와 동사의 의미 개념을 기반으로 연관성 과제를 공식화하고, 데이터 주석 없이 일반 데이터셋을 변환하는 편리한 방법을 제시하여 표준 벤치마크를 구축한다. 단일 단계, 동시, 비동시 연관성 등 세 가지 수준의 연관성 과제를 설정하고, 오픈소스 및 클로즈드소스 MLLM, 최첨단 MoE 모델을 포함한 다양한 모델들의 제로샷 연관성 능력을 종합적으로 조사한다. 결과적으로 현재 오픈소스 MLLM은 제시된 연관성 과제에서 인간에 비해 능력이 현저히 부족하며, GPT-4V(vision)와 같은 최첨단 모델조차도 상당한 차이를 보인다는 것을 확인한다. 본 벤치마크가 향후 MLLM 연구에 기여할 것으로 기대한다.

시사점, 한계점

시사점:
MLLM의 연관성 능력 평가를 위한 새로운 벤치마크 제시.
데이터 주석 없이 벤치마크 데이터셋을 구축하는 효율적인 방법 제안.
다양한 MLLM 모델의 연관성 능력에 대한 종합적인 분석 결과 제시.
현재 MLLM의 연관성 능력 부족을 명확히 보여줌으로써 향후 연구 방향 제시.
한계점:
제시된 벤치마크가 연관성 능력을 완벽하게 포괄하는지에 대한 추가 검증 필요.
특정 유형의 데이터셋에 기반한 벤치마크이므로 일반화 가능성에 대한 추가 연구 필요.
제로샷 성능 평가에만 집중, fine-tuning 등 다른 학습 방식에 대한 고려 부족.
👍