Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Facts Change: Probing LLMs on Evolving Knowledge with evolveQA

Created by
  • Haebom
Category
Empty

저자

Nishanth Sridhar Nakshatri, Shamik Roy, Manoj Ghuhan Arivazhagan, Hanhan Zhou, Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah

개요

LLM은 훈련 데이터 내에서 사실이 시간이 지남에 따라 변화하면서 발생하는 모순인 시간적 지식 충돌을 처리하는 데 종종 실패합니다. 기존 연구는 Wikidata와 같은 구조화된 지식 기반을 기반으로 구축된 벤치마크를 통해 이러한 현상을 평가하지만, 널리 다루어지고 쉽게 기억되는 인기 있는 엔터티에 초점을 맞추고 있으며, 서로 다른 지식 컷오프 날짜를 가진 LLM을 공정하게 평가하는 데 필요한 동적 구조가 부족합니다. 본 논문에서는 AWS 업데이트, Azure 변경, WHO 질병 발생 보고서의 3가지 실제 시계열 코퍼스로 구축된, 시간적 지식의 변화를 평가하기 위해 특별히 설계된 벤치마크인 evolveQA를 소개합니다. 우리의 프레임워크는 자연적으로 발생하는 지식의 변화를 식별하고 서로 다른 LLM 지식 컷오프 날짜에 맞춰 금자탑 답변이 있는 질문을 생성합니다. 3가지 지식 탐구 형식을 통해 12개의 오픈 소스 및 클로즈드 소스 LLM을 광범위하게 평가한 결과, evolveQA에서 정적 지식 질문에 비해 최대 31%의 상당한 성능 저하가 나타났습니다.

시사점, 한계점

시간적 지식의 변화를 평가하는 새로운 벤치마크 evolveQA를 제시하여 LLM의 약점을 파악.
AWS 업데이트, Azure 변경, WHO 질병 발생 보고서를 사용하여 실제 시계열 데이터를 기반으로 벤치마크를 구축.
다양한 지식 컷오프 날짜에 맞춰 질문을 생성하여 LLM의 지식 격차를 평가.
12개의 LLM을 평가하여 최대 31%의 성능 저하를 확인.
한계점: 벤치마크가 특정 도메인(AWS, Azure, WHO)에 국한되어 일반화 가능성이 제한될 수 있음.
👍