How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence
Created by
Haebom
저자
Hyeong Kyu Choi, Maxim Khanov, Hongxin Wei, Yixuan Li
개요
본 논문은 사전 훈련 말뭉치와 평가 데이터셋 간의 중복으로 인해 모델 평가의 신뢰성이 저하되는 데이터셋 오염 문제를 해결하기 위해, 새로운 오염 측정 방법인 커널 분산 점수(KDS)를 제안합니다. KDS는 벤치마크 데이터셋에서 미세 조정 전후의 샘플 임베딩에 대한 커널 유사성 행렬 간의 분산을 계산하여 데이터셋 오염을 평가합니다. 미세 조정이 기존 샘플보다 미확인 샘플에 더 큰 영향을 미친다는 점을 활용하여, KDS는 오염 수준을 신뢰할 수 있게 측정합니다. 제어된 오염 시나리오에 대한 광범위한 실험을 통해 KDS는 오염 수준과 거의 완벽한 상관관계를 보이며 기존 기준선보다 우수한 성능을 보임을 입증합니다. 또한, 주요 설계 선택의 영향을 분석하기 위한 포괄적인 ablation study를 수행하여 KDS의 구성 요소와 효과에 대한 심층적인 통찰력을 제공합니다. 이러한 ablation study는 세분화된 커널 기반 정보를 활용하는 것의 중요성을 강조하고 다양한 데이터셋과 설정에서 제안된 프레임워크의 신뢰성을 확인합니다. 코드는 https://github.com/deeplearning-wisc/kernel-divergence-score 에서 공개됩니다.