RADAR (Recall vs. Reasoning Detection through Activation Representation)는 LLM 평가에서 데이터 오염을 탐지하기 위한 새로운 프레임워크입니다. 모델이 진정한 추론 능력이 아닌 훈련 데이터를 암기하여 높은 성능을 보이는 문제를 해결하기 위해, 기계적 해석 가능성을 활용하여 회상 기반 응답과 추론 기반 응답을 구별합니다. RADAR은 표면 수준의 신뢰도 궤적과 주의 집중 특화, 회로 역학, 활성화 흐름 패턴을 포함한 깊은 기계적 특성을 아우르는 37가지 특징을 추출합니다. 이러한 특징들을 기반으로 훈련된 분류기 앙상블을 사용하여 다양한 평가 세트에서 93%의 정확도를 달성했으며, 명확한 사례에서는 완벽한 성능을, 모호한 사례에서는 76.7%의 정확도를 보였습니다.