본 논문은 유아의 시각적 추론 능력 발달에서 영감을 받아, 시각-언어 모델(VLMs)의 효율성을 높이는 새로운 프레임워크인 BabyVLM을 제안한다. 기존의 평가 벤치마크들이 지나치게 단순하거나 범위가 좁거나 대규모 사전 학습 모델에 맞춰져 있다는 점을 지적하며, 유아 데이터만으로 학습하는 한계를 극복하기 위해 아동 중심의 변환을 통해 기존 데이터셋을 합성 데이터셋으로 만드는 방법을 제시한다. BabyVLM은 포괄적인 도메인 내 평가 벤치마크와 합성 훈련 데이터셋으로 구성되며, 이를 통해 훈련된 VLMs이 SAYCam이나 일반적인 데이터셋으로 훈련된 모델보다 우수한 성능을 보임을 실험적으로 증명한다. 결론적으로 BabyVLM은 발달적으로 정렬된 강력한 평가 도구를 제공하며, 신중하게 선별된 데이터로 훈련된 소규모 모델이 효과적으로 일반화될 수 있음을 보여줌으로써 데이터 효율적인 시각-언어 학습 패러다임을 향한 길을 제시한다.