Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoreEval: Automatically Building Contamination-Resilient Datasets with Real-World Knowledge toward Reliable LLM Evaluation

Created by
  • Haebom
Category
Empty

저자

Jingqian Zhao, Bingbing Wang, Geng Tu, Yice Zhang, Qianlong Wang, Bin Liang, Jing Li, Ruifeng Xu

개요

본 논문은 LLM 평가의 공정성을 저해하는 데이터 오염 문제를 해결하기 위해, 실제 세계 지식을 활용하여 데이터를 자동 업데이트하는 오염 저항적 평가 전략인 CoreEval을 제안한다. CoreEval은 원본 데이터에서 개체 관계를 추출하고 GDELT 데이터베이스를 사용하여 최신 지식을 검색한다. 검색된 지식을 재맥락화하여 원본 데이터와 통합하고, 의미론적 일관성과 작업 관련성을 향상시키기 위해 데이터를 구체화 및 재구성한다. 최종적으로, 강력한 데이터 반사 메커니즘을 사용하여 레이블을 반복적으로 검증하고 구체화하여 업데이트된 데이터와 원본 데이터 간의 일관성을 보장한다.

시사점, 한계점

시사점:
데이터 오염 문제를 해결하는 새로운 평가 전략 제시.
실시간 지식을 활용한 데이터 업데이트를 통해 LLM 평가의 정확성 향상.
GDELT 데이터베이스 활용을 통한 지식 획득 및 데이터 갱신 자동화.
오염으로 인한 성능 과대평가 문제를 완화하는 데 효과적임.
한계점:
GDELT 데이터베이스 의존성으로, 데이터베이스의 제한적인 정보에 의존할 수 있음.
데이터 업데이트 과정에서 의미론적 일관성을 유지하는 복잡한 과정이 필요함.
모든 종류의 데이터 오염 문제를 완벽하게 해결하지 못할 수 있음.
👍