본 논문은 대규모 다중 모달 모델(LMMs)의 시각적 유추 추론 능력을 성인 및 아동과 비교 분석합니다. 시각적 유추는 하나의 이미지에서 추론된 추상적 규칙을 다른 이미지에 적용하는 것을 의미합니다. 기존의 LMM 시각적 추론 벤치마크는 고급 기술을 요구하고 어린 아이들도 할 수 있는 기본적인 시각적 유추는 제외합니다. 발달 심리학에서 영감을 얻어, 일상 물체의 4,300개 시각적 변환으로 구성된 새로운 벤치마크를 제안하여 LMMs의 시각적 유추 추론 능력을 3~5세 아동과 성인과 비교 평가합니다. 평가는 변화된 사항 식별(예: 색깔, 개수 등), 변화 방식(예: 물체 하나 추가), 새로운 시나리오에 규칙 적용의 세 단계로 구성됩니다. GPT-o1, GPT-4V, LLaVA-1.5, MANTIS는 "무엇이" 변했는지 효과적으로 식별하지만, "어떻게" 변했는지 정량화하고 새로운 물체에 규칙을 적용하는 데 어려움을 보입니다. 반면 아동과 성인은 세 단계 모두에서 훨씬 강력한 유추 추론 능력을 보입니다. 또한, 가장 성능이 좋은 모델인 GPT-o1은 색깔과 크기와 같은 단순한 표면적 시각 속성이 관련된 과제에서 더 나은 성능을 보이며, 이는 인간 성인의 빠른 응답 시간과 상관관계가 있습니다. 반대로, 물리적 세계의 외재적 공간적 특성에 대한 광범위한 인지적 처리와 이해가 필요한 개수, 회전, 반사와 같은 더 복잡한 과제는 더 큰 어려움을 제시합니다. 전반적으로 이러한 결과는 주로 2D 이미지와 텍스트로 구성된 데이터로 모델을 훈련하는 것의 한계를 강조합니다.