本文探讨了现代 BPE 分词器将日期分割成无意义片段的问题。为了解决这个问题,我们引入了一个全新的指标——日期片段率,并发布了 DateAugBench 数据集。该数据集涵盖三个时间推理任务:基于上下文的日期解释、格式不变的谜题以及跨历史、当代和未来时间轴的日期运算。此外,我们还研究了大规模语言模型 (LLM) 如何通过逐层调查和因果注意力跳跃分析,将日期片段组合起来进行时间推理。结果表明,过多的日期片段会导致准确性下降,尤其是对于稀有日期(历史日期和未来日期)。最后,我们证明了 LLM 组合日期片段的过程与人工解读(年 → 月 → 日)的过程不同。数据集和代码均已公开。