Sign In

KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

Created by
  • Haebom
Category
Empty

저자

Eunice Yiu, Maan Qraitem, Anisa Noor Majhi, Charlie Wong, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko

개요

본 논문은 대규모 다중 모드 모델(LMMs)의 시각적 유추 추론 능력을 성인과 아동의 능력과 비교 분석합니다. 시각적 유추란 하나의 이미지에서 추론된 추상적 규칙을 다른 이미지에 적용하는 것을 의미합니다. 기존의 LMM 시각적 추론 벤치마크는 고급 기술을 필요로 하고, 심지어 어린아이도 할 수 있는 기본적인 시각적 유추는 제외하고 있습니다. 발달 심리학에서 영감을 얻어, 일상 물체의 4,300개 시각적 변환으로 구성된 새로운 벤치마크를 제시하여 LMMs의 시각적 유추 추론 능력을 3~5세 아동과 성인의 능력과 비교 평가합니다. 평가는 변화된 내용 식별(예: 색상, 개수 등), 변화 과정(예: 객체 추가), 새로운 시나리오에 대한 규칙 적용의 세 단계로 구성됩니다. GPT-o1, GPT-4V, LLaVA-1.5, MANTIS는 '무엇이 변했는지'는 효과적으로 식별하지만, '어떻게 변했는지'를 정량화하고 새로운 객체에 규칙을 외삽하는 데는 어려움을 보였습니다. 반면, 아동과 성인은 세 단계 모두에서 훨씬 강력한 유추 추론 능력을 보였습니다. 가장 성능이 좋은 모델인 GPT-o1은 색상과 크기와 같은 단순한 표면적 시각 속성이 관련된 작업에서 더 나은 성능을 보였는데, 이는 빠른 성인 반응 시간과 상관관계가 있습니다. 반대로, 물리적 세계의 외재적 공간적 특성에 대한 광범위한 인지 처리와 이해를 필요로 하는 개수, 회전, 반사와 같은 더 복잡한 작업은 더 큰 어려움을 제시했습니다. 결론적으로, 이러한 결과는 주로 2D 이미지와 텍스트로 구성된 데이터로 모델을 훈련하는 것의 한계를 강조합니다.

시사점, 한계점

시사점:
LMMs의 시각적 유추 추론 능력에 대한 새로운 벤치마크 제시.
LMMs가 단순한 시각적 속성에는 강하지만, 복잡한 공간적 이해가 필요한 작업에는 약하다는 것을 밝힘.
LMMs 훈련 데이터의 한계를 시사하며, 더욱 풍부하고 다양한 데이터를 활용해야 함을 제시.
아동과 성인의 시각적 유추 능력과 LMMs의 능력 비교를 통해 인간 인지 발달에 대한 새로운 통찰력 제공.
한계점:
제시된 벤치마크는 일상 물체의 시각적 변환에 국한되어, 더욱 다양한 유형의 시각적 유추를 포함할 필요가 있음.
현재의 LMMs의 한계를 명확히 보여주지만, 향후 LMMs 발전에 대한 구체적인 방향 제시는 부족함.
실험에 참여한 아동의 수와 연령대가 제한적일 수 있음.
모델의 성능 평가에 사용된 지표에 대한 자세한 설명이 부족할 수 있음.
👍