본 논문은 대규모 언어 모델(LLM)의 과도한 암기 현상을 검출하는 새로운 방법인 PEARL을 제안합니다. PEARL은 모델 내부 접근 없이 입력 섭동에 대한 LLM 성능 민감도를 평가하여 암기 여부를 판별합니다. 입력 섭동이 출력 일관성에 미치는 영향을 분석하여 진정한 일반화와 암기를 구분합니다. Pythia 오픈 모델을 대상으로 한 실험 결과, 모델이 학습된 정보를 단순히 반복하는 경우를 효과적으로 식별하는 견고한 프레임워크임을 보여줍니다. GPT 4o 모델에 적용한 결과, 성경 구절이나 HumanEval의 일반적인 코드와 같은 텍스트 암기 사례뿐 아니라 뉴욕 타임즈 기사와 같은 데이터가 특정 모델의 학습 데이터에 포함되었을 가능성을 제시하는 증거를 제공할 수 있음을 입증했습니다.