LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models
Created by
Haebom
Category
Empty
저자
Piotr P\k{e}zik, Konrad Kaczynski, Maria Szymanska, Filip Zarnecki, Zuzanna Deckert, Jakub Kwiatkowski, Wojciech Janowski
개요
대규모 언어 모델(LLM)은 특정 시점까지의 텍스트 데이터를 기반으로 사전 학습됩니다. 이로 인해 모델은 외부 소스를 쿼리하지 않고는 정확한 정보를 제공할 수 없는 지식 경계가 생깁니다. 이러한 한계를 인지하지 못하거나 무시할 경우, LLM은 추론 작업 중 구식의 시간 민감 정보와 일반 지식을 혼합하여 응답 정확성을 저해할 수 있습니다. 본 논문에서는 LLM의 최신 지식 벤치마크인 LLMLagBench를 소개하여, LLM의 훈련 데이터의 가능한 가장 이른 시점을 식별합니다. 또한, 공개된 훈련 마감일을 포함한 다양한 LLM을 평가하고, 수동 검증 및 공개된 정보와의 비교를 통해 벤치마크의 신뢰성을 평가합니다.