본 논문은 대규모 언어 모델(LLM)이 금융 및 경제 분야에서 널리 사용됨에 따라, 프롬프트 기반의 선견지 편향 방지 시도가 모델이 연대기를 이해한다는 가정을 바탕으로 하는 점에 주목하여, 모델의 연대기적 이해 능력을 평가하기 위한 일련의 실험을 수행한다. 사전 훈련을 통해 이미 알고 있는 사실을 기반으로, (1) 연대기적 순서 정렬, (2) 조건부 정렬(필터링 후 정렬), (3) 시대착오 감지 등의 복잡성을 증가시키는 과제를 제시하고, GPT-4.1, Claude-3.7 Sonnet (Extended Thinking (ET) 포함/미포함), GPT-5를 다양한 추론 노력 설정에서 평가한다.