Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Large Language Models (LLMs) Understand Chronology?

Created by
  • Haebom
Category
Empty

저자

Pattaraphon Kenny Wongchamcharoen, Paul Glasserman

개요

본 논문은 대규모 언어 모델(LLM)이 금융 및 경제 분야에서 널리 사용됨에 따라, 모델이 시간적 순서를 이해하는지 여부를 검증하기 위해 일련의 시간 순서 정렬 작업을 수행합니다. 연구는 GPT-4.1, Claude-3.7 Sonnet, GPT-5를 대상으로 하며, 다양한 추론 노력 설정을 통해 (1) 시간 순서 정렬, (2) 조건부 정렬, (3) 시대착오 감지 과제를 평가합니다. 결과적으로 LLM이 로컬 순서는 잘 유지하지만, 전반적인 일관성을 유지하는 데 어려움을 겪는다는 것을 발견했습니다. 특히, 추론 예산을 할당하는 것이 시간 순서 정렬 성능을 향상시키는 데 도움이 된다는 것을 확인했습니다.

시사점, 한계점

LLM은 시퀀스 길이가 길어질수록 시간 순서 정렬 정확도가 감소하며, 이는 로컬 순서 유지 능력과 글로벌 일관성 유지 능력 간의 불균형을 보여줍니다.
조건부 정렬에서, 필터링 단계의 실패가 전체 성능 저하의 주요 원인이 됩니다.
GPT-5 및 Claude-3.7 Sonnet (Extended Thinking 사용)은 조건부 정렬에서 일반 모델보다 뛰어난 성능을 보였습니다.
시대착오 감지 과제는 가장 쉬운 과제였으나, 타임라인 또는 객체가 겹칠 경우 성능이 감소했습니다.
추론 노력을 할당하는 것이 시간 순서 정렬 및 조건부 정렬 성능 향상에 도움이 되며, 특히 GPT-5에서 두드러진 효과를 보였습니다.
본 연구는 현재 LLM의 시간 순서 처리 능력의 한계를 드러내며, 금융 분야의 LLM 활용에 중요한 시사점을 제공합니다.
제공된 코드 및 평가 템플릿을 통해 연구의 재현성을 확보했습니다.
👍