본 논문은 대규모 다중 모드 모델(LMMs)의 시각적 유추 추론 능력을 성인과 아동의 능력과 비교 분석합니다. 시각적 유추란 하나의 이미지에서 추론된 추상적 규칙을 다른 이미지에 적용하는 것을 의미합니다. 기존의 LMM 시각적 추론 벤치마크는 고급 기술을 필요로 하고, 심지어 어린아이도 할 수 있는 기본적인 시각적 유추는 제외하고 있습니다. 발달 심리학에서 영감을 얻어, 일상 물체의 4,300개 시각적 변환으로 구성된 새로운 벤치마크를 제시하여 LMMs의 시각적 유추 추론 능력을 3~5세 아동과 성인의 능력과 비교 평가합니다. 평가는 변화된 내용 식별(예: 색상, 개수 등), 변화 과정(예: 객체 추가), 새로운 시나리오에 대한 규칙 적용의 세 단계로 구성됩니다. GPT-o1, GPT-4V, LLaVA-1.5, MANTIS는 '무엇이 변했는지'는 효과적으로 식별하지만, '어떻게 변했는지'를 정량화하고 새로운 객체에 규칙을 외삽하는 데는 어려움을 보였습니다. 반면, 아동과 성인은 세 단계 모두에서 훨씬 강력한 유추 추론 능력을 보였습니다. 가장 성능이 좋은 모델인 GPT-o1은 색상과 크기와 같은 단순한 표면적 시각 속성이 관련된 작업에서 더 나은 성능을 보였는데, 이는 빠른 성인 반응 시간과 상관관계가 있습니다. 반대로, 물리적 세계의 외재적 공간적 특성에 대한 광범위한 인지 처리와 이해를 필요로 하는 개수, 회전, 반사와 같은 더 복잡한 작업은 더 큰 어려움을 제시했습니다. 결론적으로, 이러한 결과는 주로 2D 이미지와 텍스트로 구성된 데이터로 모델을 훈련하는 것의 한계를 강조합니다.