본 논문은 대규모 언어 모델(LLM)이 금융 및 경제 분야에서 널리 사용됨에 따라, 모델이 시간적 순서를 이해하는지 여부를 검증하기 위해 일련의 시간 순서 정렬 작업을 수행합니다. 연구는 GPT-4.1, Claude-3.7 Sonnet, GPT-5를 대상으로 하며, 다양한 추론 노력 설정을 통해 (1) 시간 순서 정렬, (2) 조건부 정렬, (3) 시대착오 감지 과제를 평가합니다. 결과적으로 LLM이 로컬 순서는 잘 유지하지만, 전반적인 일관성을 유지하는 데 어려움을 겪는다는 것을 발견했습니다. 특히, 추론 예산을 할당하는 것이 시간 순서 정렬 성능을 향상시키는 데 도움이 된다는 것을 확인했습니다.