Este artículo investiga sistemáticamente el rendimiento, la escalabilidad y las limitaciones de los modelos de razonamiento a gran escala (LRM). A diferencia de estudios previos que se centran principalmente en la precisión de la respuesta final, este estudio analiza no solo la respuesta final, sino también el proceso de razonamiento interno mediante un entorno de rompecabezas controlable donde la complejidad puede ajustarse con precisión. Los resultados experimentales muestran que la precisión de los LRM colapsa completamente a partir de cierta complejidad, y que el esfuerzo de razonamiento aumenta hasta cierto punto a medida que aumenta la complejidad del problema, pero luego disminuye a pesar del presupuesto de tokens restante, lo que muestra un límite paradójico de escalabilidad. Además, presentamos tres áreas de rendimiento según tareas de complejidad baja, media y alta, comparándolas con LLM estándar, y revelamos las limitaciones de los LRM en cuanto a computación clara y razonamiento consistente. A través del análisis del proceso de razonamiento, estudiamos el patrón de búsqueda de soluciones y el comportamiento computacional del modelo, lo que plantea interrogantes sobre las fortalezas y limitaciones de los LRM y su capacidad de razonamiento.