본 논문은 사전 훈련된 언어 모델(PLM)과 대규모 언어 모델(LLM)의 코드 인텔리전스 작업에서 미세한 데이터 오염의 영향을 체계적으로 실증 연구한 결과를 제시합니다. RoBERTa, GPT-2, LLaMA, StarCoder 등 다양한 모델을 사용하여 코드 번역, 코드 생성, 코드 요약 세 가지 주요 작업에 대해, 입력 전용, 출력 전용, 비쌍, 쌍 오염 등 네 가지 오염 시나리오를 설정하여 실험을 진행했습니다. 실험 결과, PLM의 경우 사전 훈련, 미세 조정, 추론 과정에서는 쌍 오염이 심각한 성능 과대 평가로 이어지지 않지만, 직접 추론이나 소규모 미세 조정에서는 오염 효과가 드러납니다. 반면 LLM은 쌍 오염에 상당한 영향을 받는 것으로 나타났습니다. 다른 오염 시나리오는 PLM과 LLM 모두에 영향을 미치지 않았습니다. 이는 오염이 항상 성능 과대 평가로 이어진다는 기존의 믿음에 도전하는 결과이며, 코드 인텔리전스 모델의 평가 및 배포에 대한 새로운 통찰력을 제공합니다.