Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle
Created by
Haebom
저자
Hui Dai, Ryan Teehan, Mengye Ren
개요
본 논문은 대규모 언어 모델(LLM) 평가 벤치마크의 한계점을 해결하기 위해, 일일 뉴스를 기반으로 미래 사건 예측을 지속적인 평가 방법으로 제안합니다. 'Daily Oracle'이라는 벤치마크를 통해 자동으로 생성된 질문-답변(QA) 쌍을 사용하여 LLM의 시간적 일반화 및 예측 능력을 평가합니다. 연구 결과, 사전 훈련 데이터가 오래될수록 LLM의 성능이 저하되며, 검색 증강 생성(RAG)을 사용하더라도 성능 저하 현상은 지속되어 지속적인 모델 업데이트의 필요성을 강조합니다. 코드와 데이터는 https://agenticlearning.ai/daily-oracle 에서 확인할 수 있습니다.