En este artículo, proponemos un nuevo parámetro de referencia TIME que considera tareas complejas de procesamiento de información temporal en el mundo real, con el objetivo de mejorar la capacidad de razonamiento temporal esencial para la comprensión en el mundo real de los modelos de lenguaje a gran escala (LLMs). El parámetro de referencia TIME consta de 38.522 pares de preguntas y respuestas, divididos en tres niveles y 11 subtareas de granularidad fina. Los tres subconjuntos de datos, TIME-Wiki, TIME-News y TIME-Dial, reflejan diversas tareas de razonamiento temporal en el mundo real, incluyendo información temporal masiva, dinámicas de eventos rápidamente cambiantes y dependencias temporales en interacciones sociales complejas. En este artículo, presentamos resultados experimentales en varios modelos de inferencia y modelos de no inferencia, analizamos el rendimiento del razonamiento temporal para varios escenarios y tareas del mundo real, y demostramos el impacto del escalamiento temporal de las pruebas. Además, publicamos el subconjunto de datos TIME-Lite anotado por humanos para futuras investigaciones y evaluación estandarizada.