본 논문은 대규모 언어 모델(LLM)의 메모라이제이션(memorization) 현상에 대한 종합적인 조사를 제공합니다. 메모라이제이션은 LLM이 훈련 데이터의 구절을 저장하고 재생산하는 경향을 의미하며, 개인정보보호 및 보안 위험의 근본적인 원인이 됩니다. 논문은 메모라이제이션을 세 가지 차원(세분성, 검색 가능성, 바람직성)으로 분류하고, 메모라이제이션을 정량화하는 측정 지표 및 방법, 메모라이제이션에 기여하는 원인 및 요인, 그리고 메모라이제이션의 바람직하지 않은 측면을 완화하기 위한 전략들을 논의합니다. 마지막으로, 개인정보 보호와 성능의 균형을 맞추는 방법, 대화형 에이전트, 검색 증강 생성, 확산 언어 모델과 같은 특정 LLM 맥락에서의 메모라이제이션 분석 등 향후 연구 주제를 제시합니다. 또한, 최신 연구 동향을 반영하기 위해 정기적으로 업데이트되는 참고 자료 저장소를 유지 관리합니다.