Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Much Can We Forget about Data Contamination?

Created by
  • Haebom

저자

Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg

개요

본 논문은 대규모 언어 모델(LLM) 평가에서 벤치마크 데이터의 유출이 중요한 문제임을 다룬다. 소규모 오염이 벤치마크 평가를 무효화한다는 일반적인 가정에 대해 실험적으로 검증한다. 모델 파라미터 수, 예제 노출 횟수, 훈련 토큰 수 세 가지 차원에 따른 벤치마크 과적합 정도를 정량화한다. 모델과 데이터가 Chinchilla 스케일링 법칙을 따르면, 사소한 오염도 과적합으로 이어진다. 그러나 훈련 데이터가 Chinchilla 스케일링의 5배를 넘어서는 경우(현대의 많은 LLM의 특징) 144회의 오염조차 잊혀질 수 있다. OLMo-7B의 지속적 사전 훈련이 이 결과를 뒷받침한다. 또한, 가중치 감쇠 매개변수가 예제 망각에 미치는 영향을 연구하여 경험적 망각이 누적 가중치 감쇠보다 더 빠르게 발생함을 보여준다. 이를 통해 대규모 훈련 실행에서 예제 망각 정도를 측정할 수 있으며, Lllama 3 405B를 포함한 많은 LLM이 훈련 초기에 본 데이터를 잊었다는 것을 보여준다.

시사점, 한계점

시사점:
소규모 벤치마크 데이터 오염이 항상 LLM 평가를 무효화하는 것은 아니다.
모델 크기 및 훈련 데이터 크기가 충분히 크다면, 초기 오염된 데이터의 영향은 감소할 수 있다.
가중치 감쇠 매개변수를 활용하여 예제 망각 정도를 추정할 수 있다.
많은 현존 LLM들이 초기 훈련 데이터를 잊어버린다는 것을 시사한다.
한계점:
Chinchilla 스케일링 법칙을 따르는 모델에 대한 분석이 주로 이루어졌다. 다른 스케일링 법칙을 따르는 모델에는 적용 가능성이 제한적일 수 있다.
실험적 결과는 특정 LLM과 데이터셋에 국한될 수 있으며, 일반화에 대한 추가 연구가 필요하다.
예제 망각에 대한 정확한 메커니즘에 대한 추가적인 조사가 필요하다.
👍