Para superar las limitaciones de la detección de anomalías de series temporales basada en la clasificación binaria convencional, este artículo propone Time-RA (Time-series Reasoning for Anomalies), una novedosa tarea generativa e inferencial para anomalías de series temporales, que aprovecha los modelos de lenguaje a gran escala (LLM). Presentamos el conjunto de datos de referencia multimodal RATs40K, que consta de aproximadamente 40.000 muestras de datos del mundo real. Cada muestra incluye datos numéricos de series temporales, texto contextual, representaciones visuales, tipos detallados de anomalías (14 univariadas y 6 multivariadas) y razonamiento explicativo estructurado. La precisión y la interpretabilidad se garantizan mediante un sofisticado marco de anotación basado en GPT-4. Una extensa evaluación comparativa de LLM y LLM multimodales demuestra el rendimiento y las limitaciones de los modelos actuales, enfatizando la importancia del ajuste fino basado en el aprendizaje supervisado. El conjunto de datos y el código se ponen a disposición del público para respaldar futuras investigaciones.