본 논문은 대규모 언어 모델(LLM)의 기억(memorization)이 개인정보 보호 및 공정성에 미치는 위험성을 다룹니다. 기존 연구에서 기억과 토큰 빈도 및 반복 패턴 간의 상관관계를 밝힌 것과 달리, 본 연구는 빈도 증가가 기억된 샘플에는 최소한의 영향(예: 0.09)을 미치지만 기억되지 않은 샘플에는 상당한 영향(예: 0.25)을 미치는 독특한 응답 패턴을 밝혀냈습니다. 샘플 접두사를 변경하고 토큰 위치 변경을 통해 섭동 강도를 정량화하는 반사실적 분석을 통해 중복성이 기억 패턴과 상관관계가 있음을 보여줍니다. 연구 결과, 기억된 샘플의 약 79%가 낮은 중복성을 가지며, 이러한 낮은 중복성 샘플은 높은 중복성 샘플보다 2배 높은 취약성을 보입니다. 섭동 시 기억된 샘플은 0.6 감소하지만 기억되지 않은 샘플은 0.01만 감소하여, 더 중복된 콘텐츠는 더 기억하기 쉽지만 더 취약함을 나타냅니다. 이는 데이터 전처리에 중복성 기반 접근 방식을 활용하여 개인정보 보호 위험을 줄이고 공정성을 보장할 수 있음을 시사합니다.