TemporalBench: A Benchmark for Evaluating LLM-Based Agents on Contextual and Event-Informed Time Series Tasks

Created by

Haebom

저자

Muyan Weng, Defu Cao, Wei Yang, Yashaswi Sharma, Yan Liu

💡 개요

본 논문은 LLM 기반 에이전트의 시계열 데이터에 대한 진정한 시간적 이해 능력을 평가하기 위해 TemporalBench라는 새로운 벤치마크를 제안합니다. 이 벤치마크는 역사적 구조 해석, 맥락을 고려한 시계열 예측, 이벤트 기반 예측 등 점진적으로 풍부해지는 정보 환경에서 시간적 추론 능력을 네 단계로 평가합니다. 기존의 예측 성능만으로는 에이전트의 맥락 및 이벤트 인지 능력 부족이 드러났으며, TemporalBench는 이러한 모델의 파편화된 강점과 숨겨진 실패 모드를 진단하는 데 유용함을 보여줍니다.

🔑 시사점 및 한계

•

기존 시계열 예측 벤치마크는 모델의 맥락 및 이벤트 기반 시간 추론 능력을 제대로 평가하지 못하며, LLM 기반 에이전트의 실제적인 시간적 이해 능력을 측정하는 데 한계가 있습니다.

•

TemporalBench는 다양한 도메인과 정보 수준을 포괄하는 다층적인 평가를 통해 LLM 기반 에이전트의 시간적 추론 능력을 보다 정확하고 진단적으로 분석할 수 있는 프레임워크를 제공합니다.

•

향후 과제로는 LLM 에이전트가 다양한 정보 환경 변화에 맞춰 예측을 성공적으로 조정하고, 보다 일반화된 시간적 추론 능력을 갖추도록 하는 방법론 개발이 필요합니다.

PDF 보기

Made with Slashpage