Cet article propose le Time-RA (Time-series Reasoning for Anomalies), une nouvelle tâche qui exploite les modèles de langage à grande échelle (LLM) pour transformer la détection d'anomalies de séries chronologiques en une tâche générative et inférentielle. Pour surmonter les limites des méthodes existantes de détection d'anomalies de séries chronologiques basées sur la classification binaire, nous introduisons le jeu de données de référence multimodal RATs40K, qui contient environ 40 000 données réelles. RATs40K est composé de données de séries chronologiques numériques, de texte contextuel et de représentations visuelles, chacune annotée avec des types d'anomalies détaillés (14 univariées et 6 multivariées) et un raisonnement explicatif structuré. Nous développons un cadre d'annotation sophistiqué qui exploite des étiquettes générées par l'ensemble, affinées grâce au feedback basé sur GPT-4, pour garantir la précision et l'interprétabilité. Une analyse comparative approfondie des LLM et des LLM multimodaux démontre les capacités et les limites des modèles actuels et souligne l'importance d'un réglage fin supervisé. Le code et les ensembles de données fournis sont mis à disposition pour soutenir et accélérer les recherches futures.