LLM의 신뢰할 수 있는 평가에 심각한 위협이 되는 데이터 오염 문제를 다룬다. 특히, 강화 학습 (RL) 후처리 단계에서 오염을 탐지하는 방법의 부재가 문제로 지적된다. 기존 방법들이 RL 단계의 오염 탐지에 어려움을 겪는 점을 고려하여, 본 연구는 RL 후처리 단계의 데이터 오염 탐지를 위한 최초의 체계적인 연구를 수행하고, Self-Critique라는 새로운 방법을 제안한다. Self-Critique는 RL 후처리 단계에서 LLM의 출력 엔트로피가 좁은 모드로 붕괴되는 현상에 착안하여, 모델의 좁은 추론 경로로의 수렴(policy collapse)을 탐지한다. 또한, 이 연구를 위해 RL-MIA라는 새로운 벤치마크를 개발했다. 실험 결과, Self-Critique는 다양한 모델과 오염 작업에서 기존의 기준 방법들을 크게 능가하며, 최대 30%의 AUC 향상을 달성했다.