Este artículo aborda los desafíos de los modelos de lenguaje visual (MLV) para comprender y seguir instrucciones de ensamblaje multimodal, especialmente cuando se requiere razonamiento espacial sofisticado y detección precisa del estado de los objetos. Presentamos LEGO Co-builder, un benchmark híbrido que combina la lógica de ensamblaje LEGO del mundo real con escenas multimodales generadas programáticamente. Este conjunto de datos captura estados visuales paso a paso e instrucciones procedimentales, lo que permite la evaluación controlada del seguimiento de instrucciones, la detección de objetos y la detección de estado. Los principales MLV, como GPT-4o, Gemini y Qwen-VL, se evalúan con nuestro marco unificado en entornos de cero disparos y ajuste fino. Los resultados muestran que incluso modelos avanzados como GPT-4o presentan dificultades con tareas de ensamblaje sofisticadas, con una puntuación F1 máxima de tan solo el 40,54 % en detección de estado, lo que demuestra una brecha en la comprensión visual sofisticada. Para apoyar futuras investigaciones sobre asistencia al ensamblaje multimodal, publicamos el benchmark, el código base y el flujo de generación.