En este artículo, presentamos MMLU-Reason, un nuevo referente para evaluar la capacidad de inferencia de modelos lingüísticos multimodales a gran escala (MLLM), especialmente MLLM-T con trazas de pensamiento intermedias. MMLU-Reason consta de 1083 preguntas desafiantes que abarcan seis tipos diferentes de inferencia y un proceso modular de evaluación de trazas de inferencia (RTEP) que evalúa la calidad de la inferencia. RTEP evalúa la calidad de la inferencia mediante métricas como la relevancia, la consistencia y las anotaciones de errores estructurales, además de la precisión. Los resultados experimentales muestran que MLLM-T generalmente supera a los modelos que operan sin trazas de pensamiento, pero incluso modelos de vanguardia como Claude-3.7-Sonnet y Gemini-2.5 Pro presentan patologías de inferencia como la inconsistencia y el pensamiento excesivo. Por lo tanto, MMLU-Reason demuestra una brecha constante entre la precisión y la calidad de la inferencia, y proporciona un proceso de evaluación viable para el desarrollo futuro de modelos.