Este artículo presenta un estudio exhaustivo del campo del razonamiento visual compositivo (CVR), analizando más de 260 artículos publicados entre 2023 y 2025. El CVR busca capacitar a las máquinas para descomponer escenas visuales y realizar razonamiento lógico de múltiples pasos basado en conceptos intermedios, de forma similar a los humanos. Definimos las ventajas de los enfoques compositivos (alineamiento cognitivo, fidelidad semántica, robustez, interpretabilidad y eficiencia de datos) y trazamos cinco cambios de paradigma: desde canales basados en indicaciones y centrados en el lenguaje hasta LLM y VLM basados en herramientas, razonamiento en cadena de pensamiento y VLM con agente integrado. Presentamos más de 60 puntos de referencia y métricas, destacando perspectivas clave, desafíos (p. ej., limitaciones del razonamiento basado en LLM, alucinaciones, sesgos en el razonamiento deductivo, supervisión escalable, integración de herramientas y limitaciones de los puntos de referencia) y direcciones futuras (p. ej., integración de modelos mundiales, razonamiento colaborativo humano-IA y protocolos de evaluación más completos).