Sign In

KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

Created by
  • Haebom
Category
Empty

저자

Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 시각적 유추 추론 능력을 성인 및 아동과 비교 분석합니다. 시각적 유추는 하나의 이미지에서 추론된 추상적 규칙을 다른 이미지에 적용하는 것을 의미합니다. 기존의 LMM 시각적 추론 벤치마크는 고급 기술을 요구하고 어린 아이들도 할 수 있는 기본적인 시각적 유추는 제외합니다. 발달 심리학에서 영감을 얻어, 일상 물체의 4,300개 시각적 변환으로 구성된 새로운 벤치마크를 제안하여 LMMs의 시각적 유추 추론 능력을 3~5세 아동과 성인과 비교 평가합니다. 평가는 변화된 사항 식별(예: 색깔, 개수 등), 변화 방식(예: 물체 하나 추가), 새로운 시나리오에 규칙 적용의 세 단계로 구성됩니다. GPT-o1, GPT-4V, LLaVA-1.5, MANTIS는 "무엇이" 변했는지 효과적으로 식별하지만, "어떻게" 변했는지 정량화하고 새로운 물체에 규칙을 적용하는 데 어려움을 보입니다. 반면 아동과 성인은 세 단계 모두에서 훨씬 강력한 유추 추론 능력을 보입니다. 또한, 가장 성능이 좋은 모델인 GPT-o1은 색깔과 크기와 같은 단순한 표면적 시각 속성이 관련된 과제에서 더 나은 성능을 보이며, 이는 인간 성인의 빠른 응답 시간과 상관관계가 있습니다. 반대로, 물리적 세계의 외재적 공간적 특성에 대한 광범위한 인지적 처리와 이해가 필요한 개수, 회전, 반사와 같은 더 복잡한 과제는 더 큰 어려움을 제시합니다. 전반적으로 이러한 결과는 주로 2D 이미지와 텍스트로 구성된 데이터로 모델을 훈련하는 것의 한계를 강조합니다.

시사점, 한계점

시사점:
대규모 다중 모달 모델의 시각적 유추 추론 능력에 대한 새로운 벤치마크 제시.
LMMs의 시각적 유추 추론 능력이 아동 및 성인에 비해 현저히 낮다는 사실을 밝힘.
LMMs의 성능이 단순한 시각적 속성에는 우수하지만, 복잡한 공간적 이해가 필요한 과제에는 취약함을 보임.
주로 2D 이미지와 텍스트 데이터로 학습된 모델의 한계를 드러냄.
한계점:
제한된 수의 모델과 연령대의 참여자만을 대상으로 실험 진행.
실험에 사용된 시각적 유추 과제의 일반화 가능성에 대한 추가 연구 필요.
모델의 추론 과정에 대한 심층적인 분석 부족.
👍