본 논문은 대규모 언어 모델(LLM)의 시간적 추론 및 계획 능력을 종합적으로 평가하는 새로운 벤치마크인 시간 제약 기반 계획(TCP)을 제시합니다. TCP는 다양한 도메인의 현실적인 시나리오를 바탕으로, 상호 의존적인 시간적 제약 조건이 명시적 또는 암시적으로 표현된 자연스러운 대화를 포함합니다. 모델은 모든 제약 조건을 만족하는 최적의 일정을 추론해야 합니다. LLM을 사용하여 추상적인 문제 원형을 현실적인 시나리오와 결합하고 대화로 풍부하게 만들고, 샘플링된 하위 집합에 대한 인간 품질 검사를 통해 벤치마크의 신뢰성을 확인했습니다. 최첨단 LLM을 평가한 결과, 최고 성능 모델조차도 TCP에서 어려움을 겪는다는 것을 발견하여 LLM의 시간 제약 기반 계획 능력의 한계를 보여줍니다. 본 논문에서는 실패 사례를 분석하고, 벤치마크를 오픈 소스로 공개하며, 향후 연구에 영감을 주고자 합니다.