Este artículo presenta los resultados de un estudio que evalúa las capacidades de razonamiento mecánico de 26 Modelos de Lenguaje de Visión (MLV) en 155 experimentos cognitivos, incluyendo aquellos relacionados con la estabilidad del sistema, sistemas de engranajes y poleas, el principio de palanca, la inercia y el movimiento, y la mecánica de fluidos. Las capacidades de razonamiento mecánico de los MLV se evaluaron en comparación con el rendimiento humano en todos los dominios, con especial dificultad en el razonamiento sobre sistemas de engranajes y mecánica de fluidos. La falta de mejora en el rendimiento a pesar del aumento del número de parámetros del modelo sugiere que las arquitecturas actuales basadas en la atención podrían no comprender ciertos mecanismos subyacentes necesarios para el razonamiento mecánico, en particular la simulación mental.