본 논문은 유아의 시각 발달 과정을 모방한 계산 모델이 언어적 학습보다 앞서 복잡한 시각적 이해 능력을 발달시키는지 여부를 탐구하는 학제 간 연구를 제시합니다. Vong et al.의 모델을 분석하여, 단일 유아의 시점에서 촬영된 종단적 영상과 부모의 말소리 기록을 사용하여 훈련된 모델의 내부 표상에서 시각 개념 뉴런을 식별합니다. 이 뉴런들이 모델의 초기 어휘를 넘어선 사물을 인식할 수 있음을 보여주고, 유아 모델과 CLIP, ImageNet 사전 훈련 모델 등 현대 컴퓨터 비전 모델 간의 표상 차이를 비교 분석합니다. 궁극적으로 유아의 시각 및 언어 입력으로 훈련된 계산 모델의 내부 표상을 분석하여 인지 과학과 컴퓨터 비전을 연결합니다.