본 논문은 대규모 언어 모델(LLM)의 성능 평가에서 발생하는 데이터 오염 문제를 해결하기 위한 새로운 알고리즘인 LogProber를 제시합니다. 기존 연구들의 한계점을 극복하고자, 답변보다는 질문에 대한 친숙도에 초점을 맞춰 블랙박스 환경에서 오염을 감지하는 데 중점을 둡니다. LLM은 웹에서 수집된 방대한 데이터로 훈련되기 때문에, 테스트 데이터가 훈련 데이터에 유입되는 오염 문제는 성능 평가의 정확성에 심각한 영향을 미칩니다. LogProber는 이러한 오염을 효율적으로 감지하는 방법을 제시하며, 기존 방법과의 비교 분석을 통해 장단점을 파악하고, 다양한 오염 형태에 대한 감지 성능을 보여줍니다.