Sign In

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Created by
  • Haebom
Category
Empty

저자

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

개요

본 논문은 시각 및 텍스트 정보 통합에 강력한 도구로 떠오른 다중 모드 대규모 언어 모델(MLLM)의 추상적 추론 능력 평가를 위한 새로운 벤치마크 VOILA를 제시합니다. VOILA는 두 쌍의 이미지(기준 및 적용) 간의 유추를 통해 새로운 이미지를 생성하는 과제를 통해 MLLM의 지각적 이해와 추상적 관계적 추론 능력을 평가합니다. 실험 결과, MLLM이 이미지 간 관계를 이해하고 고차원 관계적 추론을 수행하는 데 어려움을 겪는다는 것을 보여줍니다. 최소-최대 프롬프팅 전략을 사용하면 성능이 향상되지만, 여전히 인간 수준에는 크게 미치지 못하며, 특히 어려운 과제에서는 정확도가 13%(LLaMa 3.2)에 불과함을 확인했습니다.

시사점, 한계점

시사점: MLLM의 추상적 추론 능력의 한계를 명확히 보여주는 새로운 벤치마크 VOILA를 제시했습니다. 다단계 프롬프팅 전략이 성능 향상에 기여함을 확인했습니다. MLLM의 시각적 이해 및 추론 능력 향상을 위한 연구 방향을 제시합니다.
한계점: 현재 MLLM의 추상적 추론 능력이 인간 수준에 크게 미치지 못함을 보여줍니다. VOILA 벤치마크 자체의 한계점은 제시되지 않았으나, 더욱 다양하고 복잡한 시각적 유추 과제를 포함하여 개선될 여지가 있습니다. GPT-4o를 포함한 최첨단 모델의 성능이 여전히 낮다는 점은 추가적인 연구 개발이 필요함을 시사합니다.
👍