본 논문은 기존의 이진 분류에 그치는 시계열 이상 탐지의 한계를 극복하기 위해, 대규모 언어 모델(LLM)을 활용하여 시계열 이상 현상에 대한 생성적이고 추론 중심적인 새로운 과제인 Time-RA(Time-series Reasoning for Anomaly)를 제안합니다. 약 4만 개의 실제 세계 데이터로 구성된 다중 모드 벤치마크 데이터셋 RATs40K를 소개하며, 각 샘플은 수치 시계열 데이터, 맥락 정보 텍스트, 시각적 표현과 함께 세분화된 이상 유형(일변량 14가지, 다변량 6가지)과 구조화된 설명적 추론을 포함합니다. GPT-4 기반의 정교한 주석 프레임워크를 통해 정확성과 해석성을 확보하였으며, LLM과 다중 모드 LLM의 광범위한 벤치마킹을 통해 현재 모델의 성능과 한계를 보여주고, 지도 학습 기반 미세 조정의 중요성을 강조합니다. 데이터셋과 코드를 공개하여 향후 연구를 지원합니다.