En este artículo, evaluamos el rendimiento de modelos multimodales populares, como GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL y Llama 3.2, en tareas de visión artificial (segmentación semántica, detección de objetos, clasificación de imágenes y predicción de la normal de profundidad y superficie) utilizando conjuntos de datos estándar como COCO e ImageNet. Considerando que los modelos están optimizados para la salida de texto y muchos de ellos solo permiten acceso a API, construimos un marco de referencia estandarizado que convierte las tareas de visión estándar en tareas basadas en indicaciones de texto mediante encadenamiento de indicaciones. Como resultado, aunque no alcanza a los modelos expertos existentes, muestra un rendimiento considerable en diversas tareas, y en particular, supera a las tareas geométricas en tareas semánticas. GPT-4o muestra el mejor rendimiento entre los modelos sin inferencia, y los modelos de inferencia muestran un rendimiento mejorado en tareas geométricas; sin embargo, el último GPT-4o con función de generación de imágenes presenta problemas como alucinaciones y desalineación espacial.