[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TIME: Un punto de referencia multinivel para el razonamiento temporal de los LLM en escenarios del mundo real

Created by
  • Haebom

Autor

Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang

Describir

En este artículo, proponemos un nuevo parámetro de referencia TIME que considera tareas complejas de procesamiento de información temporal en el mundo real, con el objetivo de mejorar la capacidad de razonamiento temporal esencial para la comprensión en el mundo real de los modelos de lenguaje a gran escala (LLMs). El parámetro de referencia TIME consta de 38.522 pares de preguntas y respuestas, divididos en tres niveles y 11 subtareas de granularidad fina. Los tres subconjuntos de datos, TIME-Wiki, TIME-News y TIME-Dial, reflejan diversas tareas de razonamiento temporal en el mundo real, incluyendo información temporal masiva, dinámicas de eventos rápidamente cambiantes y dependencias temporales en interacciones sociales complejas. En este artículo, presentamos resultados experimentales en varios modelos de inferencia y modelos de no inferencia, analizamos el rendimiento del razonamiento temporal para varios escenarios y tareas del mundo real, y demostramos el impacto del escalamiento temporal de las pruebas. Además, publicamos el subconjunto de datos TIME-Lite anotado por humanos para futuras investigaciones y evaluación estandarizada.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo punto de referencia TIME considerando tareas de inferencia temporal del mundo real.
Proporciona un conjunto de datos completo que cubre una variedad de escenarios y tareas del mundo real (TIME-Wiki, TIME-News, TIME-Dial)
Proporcionar criterios de evaluación estandarizados para la evaluación del desempeño y el análisis de modelos de inferencia temporal
Análisis del impacto del escalamiento del tiempo de prueba en la capacidad de inferencia temporal
Se publica TIME-Lite, un conjunto de datos anotados por humanos para futuras investigaciones
Limitations:
Tal vez se necesiten investigaciones adicionales sobre la escala y diversidad de los puntos de referencia.
Es posible que no refleje perfectamente todas las tareas de inferencia temporal del mundo real.
Puede haber un sesgo hacia un idioma o cultura en particular.
El tamaño de TIME-Lite puede ser relativamente pequeño en comparación con el conjunto de datos TIME completo.
👍