본 논문은 시계열 데이터에 대한 해석력을 향상시키기 위해 강화학습 기반의 새로운 방법인 TimeMaster를 제시합니다. TimeMaster는 시각화된 시계열 입력과 작업 프롬프트를 직접 처리하여 구조적이고 해석 가능한 추론을 수행합니다. 세 가지 구조적 출력 형식(추론, 분류, 도메인 특정 확장)을 채택하며, 형식 준수, 예측 정확도, 개방형 통찰력 품질을 조정하는 복합 보상 함수를 통해 최적화됩니다. 지도 학습 미세 조정(SFT)과 토큰 수준의 GRPO(Group Relative Policy Optimization)를 사용하는 2단계 파이프라인으로 훈련되며, TimerBed 벤치마크에서 기존 시계열 모델 및 퓨샷 GPT-4o를 상당히 능가하는 성능을 보입니다. TimeMaster는 시계열 분류를 넘어 전문가 수준의 추론, 맥락 인식 설명 생성, 도메인에 맞는 통찰력 제공 등의 기능을 보여줍니다.