Este artículo presenta un punto de referencia a pequeña escala para evaluar las capacidades cognitivas urbanas de los modelos de visión-lenguaje (VLM) con el fin de comprender cómo la comprensión de los paisajes urbanos influye en el diseño y la planificación. Utilizando 100 fotografías de calles de Montreal (con una distribución equitativa de fotografías e imágenes sintéticas realistas), 12 participantes proporcionaron 230 formularios de anotación en 30 dimensiones, combinando atributos físicos e impresiones subjetivas. Se evaluaron siete VLM mediante un enfoque de cero disparos, utilizando precisión y superposición de Jaccard. Se observó que la alineación de los modelos con las características objetivas visibles era más sólida que sus evaluaciones subjetivas.