Este artículo evalúa el rendimiento de modelos multimodales populares, como GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL y Llama 3.2, en tareas de visión artificial (análisis semántico segmentado, detección de objetos, clasificación de imágenes y predicción de profundidad y normal a la superficie) utilizando conjuntos de datos estándar como COCO e ImageNet. Superamos las dificultades de que los modelos estén originalmente optimizados para la salida de texto y algunos solo sean accesibles a través de API mediante encadenamiento de indicaciones para construir un marco de evaluación comparativa estandarizado. Como resultado, aunque estos modelos no alcanzan a los modelos profesionales de visión artificial, muestran una considerable capacidad de generalización a pesar de estar entrenados principalmente en imagen-texto y se desempeñan mejor en tareas semánticas que en tareas geométricas. GPT-4o presenta el mejor rendimiento entre los modelos sin inferencia, y los modelos de inferencia muestran un rendimiento mejorado en tareas geométricas. Sin embargo, los modelos con capacidades de generación de imágenes, como GPT-4o, presentan problemas como alucinaciones y desalineación espacial.