DateLogicQA는 다양한 날짜 형식, 시간적 맥락, 추론 유형을 포함하는 190개의 질문으로 구성된 벤치마크입니다. 본 논문에서는 토큰화 품질을 평가하기 위한 의미적 무결성 지표를 제안하고, 임베딩에 영향을 미치는 표현 수준 편향과 추론 결과에 영향을 미치는 논리 수준 편향이라는 두 가지 편향을 분석합니다. 연구 결과는 시간적 추론에서 대규모 언어 모델(LLM)의 능력과 한계를 포괄적으로 평가하고, 시간 데이터를 정확하게 처리하는 데 있어 주요 과제를 강조합니다.