En este artículo, presentamos un novedoso método de evaluación para evaluar la capacidad de razonamiento visual no local de los modelos de lenguaje visual (MLV). El razonamiento visual no local se refiere al razonamiento que conecta la evidencia recopilada de múltiples regiones de una imagen y lo clasificamos en tres tipos: percepción comparativa, búsqueda de salto y búsqueda visual fluida. Nuestros experimentos con MLV de última generación, como Gemini 2.5 Pro, Claude Vision 3.7 y GPT-o4-mini, muestran que estos modelos apenas superan la precisión aleatoria en tareas simples para humanos. Esto sugiere que, si bien los MLV tienen un buen rendimiento en los parámetros de visión primitiva, carecen de capacidades clave de razonamiento visual. Este estudio proporciona un conjunto de evaluación estructurada para verificar si los MLV pueden ejecutar algoritmos de visión similares a los humanos.