Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time

Created by
  • Haebom

저자

David Herel, Vojtech Bartek, Jiri Jirak, Tomas Mikolov

개요

본 논문은 시간에 따른 답변의 정확성 변화를 고려하여 대규모 언어 모델(LLM)의 시간적 추론 능력을 평가하는 새로운 프레임워크와 데이터셋을 제시합니다. 2018년부터 2024년까지 8,000개 이상의 이벤트를 일 단위의 세분성으로 주석을 달아 정치, 과학, 비즈니스 등 다양한 분야에서 수집한 데이터를 사용하여, 기존 모델들의 시간적 추론 능력을 체계적으로 평가하는 TimeShift 평가 방법을 제시합니다. 평가 결과, 기본 모델이 지시어 튜닝 및 합성 데이터 튜닝 모델보다 시간에 민감한 정보 회상에서 더 나은 성능을 보이는 것으로 나타났으며, 대규모 모델조차도 문장 표현이 바뀐 사실을 다루는 데 어려움을 보이는 취약성을 확인했습니다. 이를 통해 실제 세계 지식의 역동적인 특성에 적응할 수 있는 시간 인식 언어 모델 개발을 위한 중요한 단계를 제시합니다.

시사점, 한계점

시사점:
시간적 추론 능력 평가를 위한 새로운 프레임워크와 데이터셋 제공
기존 LLM의 시간적 추론 능력에 대한 심층적인 분석 및 한계점 제시
시간에 민감한 정보 처리에 대한 향상된 LLM 개발 방향 제시
한계점:
현재 데이터셋은 2018년부터 2024년까지의 데이터만 포함
문장 표현의 변화에 대한 LLM의 취약성이 여전히 해결되지 않음
더욱 다양하고 광범위한 시간적 추론 과제에 대한 추가 연구 필요
👍