Este artículo tiene como objetivo evaluar sistemáticamente las capacidades del modelo de mundo interno (WM) de los modelos de visión-lenguaje (VLM) a gran escala de vanguardia. A diferencia de estudios previos que solo presentan limitaciones en capacidades específicas, proponemos un marco de evaluación en dos etapas (percepción y predicción) basado en la psicología comparada y la ciencia cognitiva, y desarrollamos un banco de referencia WM-ABench a gran escala que consta de 23 elementos de evaluación detallados en seis entornos de simulación diferentes. Realizamos 660 experimentos en 15 VLM comerciales y de código abierto de vanguardia, y encontramos limitaciones significativas en sus capacidades básicas de modelado del mundo. Por ejemplo, la mayoría de los modelos muestran una precisión casi aleatoria en la clasificación de trayectorias de movimiento y presentan problemas como la incapacidad de comprender colores y velocidades por separado. Como resultado, revelamos una brecha significativa entre los VLM y el modelado del mundo a nivel humano.