CoDeC는 대규모 언어 모델의 훈련 데이터 오염을 탐지하고 정량화하는 실용적이고 정확한 방법입니다. CoDeC는 in-context learning이 모델 성능에 미치는 영향을 측정하여 훈련 중에 암기된 데이터와 훈련 분포 외의 데이터를 구별합니다. In-context 예시는 일반적으로 보이지 않는 데이터 세트에 대한 신뢰도를 높이지만, 훈련의 일부였던 데이터 세트의 경우 암기 패턴이 교란되어 신뢰도를 감소시킬 수 있습니다. 실험 결과 CoDeC는 seen 및 unseen 데이터 세트를 명확하게 구분하는 해석 가능한 오염 점수를 생성하며, 공개되지 않은 훈련 코퍼스를 가진 open-weight 모델에서 암기에 대한 강력한 증거를 보여줍니다. 이 방법은 간단하고 자동화되어 있으며 모델 및 데이터 세트와 무관하므로 벤치마크 평가에 쉽게 통합할 수 있습니다.