본 논문은 대규모 언어 모델(LLM)의 민감한 개인정보(PII) 암기로 인한 증가하는 프라이버시 위험에 대해 다룹니다. 기존 연구는 현실적이고 윤리적인 데이터셋 부족으로 어려움을 겪었는데, 본 논문에서는 온라인 환경의 PII 및 민감한 데이터의 분포, 다양성, 맥락을 정확하게 모방하도록 설계된 9,674개의 합성 프로필에서 파생된 384,789개의 샘플로 구성된 대규모 합성 코퍼스인 PANORAMA를 소개합니다. PANORAMA는 다양한 콘텐츠 유형(위키 스타일 기사, 소셜 미디어 게시물 등)을 생성하며, Mistral-7B 모델을 이용한 실험을 통해 반복 횟수에 따른 PII 암기율 증가와 콘텐츠 유형에 따른 변화를 보여줍니다. 데이터셋과 코드는 공개적으로 제공되어 프라이버시 위험 평가, 모델 감사 및 프라이버시 보호 LLM 개발에 활용될 수 있습니다.