본 논문은 LLM(대규모 언어 모델)의 달력 간 시간 추론 능력을 평가하기 위한 SPAN 벤치마크를 소개합니다. SPAN은 10개의 교차 달력 시간 추론 방향, 2가지 추론 유형, 2가지 질문 형식을 특징으로 하며, 6개의 달력 시스템을 포괄합니다. 동적 인스턴스 생성을 위한 템플릿 기반 프로토콜을 제안하여 시간 변화 및 오염 방지 평가를 가능하게 합니다. 1960년부터 2060년까지의 광범위한 날짜 범위를 대상으로 오픈소스 및 클로즈드 소스 SOTA LLM에 대한 광범위한 실험을 수행했습니다. 평가는 평균 정확도 34.5%로, 이 작업이 여전히 어려운 과제임을 보여줍니다. 미래 날짜 저하 및 달력 비대칭성 편향과 같은 주요 문제점을 식별했습니다. 또한, 도구 보조 코드 생성을 활용하는 LLM 기반 Time Agent를 개발하여, Time Agent는 95.31%의 평균 정확도를 달성하여 교차 달력 시간 추론 발전을 이끌었습니다.