VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning
Created by
Haebom
Category
Empty
저자
Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang
개요
본 논문은 시각 및 텍스트 정보 통합에 강력한 도구로 떠오른 다중 모드 대규모 언어 모델(MLLM)의 추상적 추론 능력 평가를 위한 새로운 벤치마크 VOILA를 제시합니다. VOILA는 두 쌍의 이미지(기준 및 적용) 간의 유추를 통해 새로운 이미지를 생성하는 과제를 통해 MLLM의 지각적 이해와 추상적 관계적 추론 능력을 평가합니다. 실험 결과, MLLM이 이미지 간 관계를 이해하고 고차원 관계적 추론을 수행하는 데 어려움을 겪는다는 것을 보여줍니다. 최소-최대 프롬프팅 전략을 사용하면 성능이 향상되지만, 여전히 인간 수준에는 크게 미치지 못하며, 특히 어려운 과제에서는 정확도가 13%(LLaMa 3.2)에 불과함을 확인했습니다.
시사점, 한계점
•
시사점: MLLM의 추상적 추론 능력의 한계를 명확히 보여주는 새로운 벤치마크 VOILA를 제시했습니다. 다단계 프롬프팅 전략이 성능 향상에 기여함을 확인했습니다. MLLM의 시각적 이해 및 추론 능력 향상을 위한 연구 방향을 제시합니다.
•
한계점: 현재 MLLM의 추상적 추론 능력이 인간 수준에 크게 미치지 못함을 보여줍니다. VOILA 벤치마크 자체의 한계점은 제시되지 않았으나, 더욱 다양하고 복잡한 시각적 유추 과제를 포함하여 개선될 여지가 있습니다. GPT-4o를 포함한 최첨단 모델의 성능이 여전히 낮다는 점은 추가적인 연구 개발이 필요함을 시사합니다.