대규모 언어 모델(LLM)의 추론 능력 향상을 위해, 임시 생성 데이터 세트나 Lean 증명 시스템과 같은 형식을 사용한다. 본 논문에서는 LLM 추론 능력 분석을 위한 최초의 형식적으로 기반을 둔 검증 가능한 진단 벤치마크인 TempoBench를 소개한다. TempoBench는 temporal trace evaluation (TTE) 및 temporal causal evaluation (TCE)를 사용하여 추론 능력을 평가하며, 복잡성이 증가함에 따라 LLM의 성능 저하를 확인하였다.