Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zhongjian Miao, Hao Fu, Chen Wei

개요

본 논문은 LLM(대규모 언어 모델)의 달력 간 시간 추론 능력을 평가하기 위한 SPAN 벤치마크를 소개합니다. SPAN은 10개의 교차 달력 시간 추론 방향, 2가지 추론 유형, 2가지 질문 형식을 특징으로 하며, 6개의 달력 시스템을 포괄합니다. 동적 인스턴스 생성을 위한 템플릿 기반 프로토콜을 제안하여 시간 변화 및 오염 방지 평가를 가능하게 합니다. 1960년부터 2060년까지의 광범위한 날짜 범위를 대상으로 오픈소스 및 클로즈드 소스 SOTA LLM에 대한 광범위한 실험을 수행했습니다. 평가는 평균 정확도 34.5%로, 이 작업이 여전히 어려운 과제임을 보여줍니다. 미래 날짜 저하 및 달력 비대칭성 편향과 같은 주요 문제점을 식별했습니다. 또한, 도구 보조 코드 생성을 활용하는 LLM 기반 Time Agent를 개발하여, Time Agent는 95.31%의 평균 정확도를 달성하여 교차 달력 시간 추론 발전을 이끌었습니다.

시사점, 한계점

시사점:
LLM의 교차 달력 시간 추론 능력을 평가하기 위한 SPAN 벤치마크 개발.
LLM이 직면한 주요 문제점(미래 날짜 저하, 달력 비대칭성 편향) 식별.
도구 보조 코드 생성을 활용하는 Time Agent를 통해 교차 달력 시간 추론 능력 향상.
시간 및 문화에 더 적응적인 LLM 개발에 기여.
한계점:
LLM의 평균 정확도가 낮아, 교차 달력 시간 추론에 대한 개선의 여지가 많음.
특정 유형의 편향(미래 날짜 저하, 달력 비대칭성 편향)에 대한 추가 연구 필요.
Time Agent의 성능을 다른 벤치마크 및 다양한 설정에서 검증할 필요가 있음.
👍