본 논문은 시간에 따른 답변의 정확성 변화를 고려하여 대규모 언어 모델(LLM)의 시간적 추론 능력을 평가하는 새로운 프레임워크와 데이터셋을 제시합니다. 2018년부터 2024년까지 8,000개 이상의 이벤트를 일 단위의 세분성으로 주석을 달아 정치, 과학, 비즈니스 등 다양한 분야에서 수집한 데이터를 사용하여, 기존 모델들의 시간적 추론 능력을 체계적으로 평가하는 TimeShift 평가 방법을 제시합니다. 평가 결과, 기본 모델이 지시어 튜닝 및 합성 데이터 튜닝 모델보다 시간에 민감한 정보 회상에서 더 나은 성능을 보이는 것으로 나타났으며, 대규모 모델조차도 문장 표현이 바뀐 사실을 다루는 데 어려움을 보이는 취약성을 확인했습니다. 이를 통해 실제 세계 지식의 역동적인 특성에 적응할 수 있는 시간 인식 언어 모델 개발을 위한 중요한 단계를 제시합니다.