Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Los modelos de visión-lenguaje perciben las escenas urbanas como las personas? Un punto de referencia de la percepción urbana

Created by
  • Haebom

Autor

Rashid Mushkani

Describir

Este artículo presenta un punto de referencia a pequeña escala para evaluar las capacidades cognitivas urbanas de los modelos de visión-lenguaje (VLM) con el fin de comprender cómo la comprensión de los paisajes urbanos influye en el diseño y la planificación. Utilizando 100 fotografías de calles de Montreal (con una distribución equitativa de fotografías e imágenes sintéticas realistas), 12 participantes proporcionaron 230 formularios de anotación en 30 dimensiones, combinando atributos físicos e impresiones subjetivas. Se evaluaron siete VLM mediante un enfoque de cero disparos, utilizando precisión y superposición de Jaccard. Se observó que la alineación de los modelos con las características objetivas visibles era más sólida que sus evaluaciones subjetivas.

Takeaways, Limitations

Takeaways:
Construcción de un punto de referencia para evaluar el desempeño de los VLM relacionados con la cognición urbana.
Confirmamos el buen desempeño del modelo en propiedades objetivas.
Divulgación de puntos de referencia, pautas y herramientas para una evaluación reproducible.
Presentando la posibilidad de utilizarlo para el análisis urbano participativo.
Limitations:
El rendimiento del modelo en evaluaciones subjetivas es relativamente bajo.
Ligera degradación del rendimiento en imágenes sintéticas.
El tamaño del conjunto de datos utilizado es pequeño.
👍