본 논문은 언어 모델(LM)이 개인화된 의사소통 시나리오에서 사용됨에 따라, LM이 문맥적 프라이버시 규범에 따라 행동하도록 하는 것이 중요해짐을 강조한다. 기존의 프라이버시 위험 평가 방법의 한계를 지적하며, 문맥적이고 다양한 프라이버시 관련 사례와 현실적인 적용 시나리오를 포착하는 평가 방식의 부재를 문제점으로 제기한다. 이를 해결하기 위해, 프라이버시 민감 정보를 활용하여 다양한 시나리오를 생성하고, LM 에이전트의 행동에서 프라이버시 유출을 다층적으로 평가하는 새로운 프라이버시 평가 프레임워크인 PrivacyLens를 제안한다. PrivacyLens는 프라이버시 문헌과 크라우드소싱을 통해 수집된 프라이버시 규범과 시드 데이터를 기반으로 구축되었으며, GPT-4와 Llama-3-70B와 같은 최첨단 LM이 프라이버시 강화 지침에도 불구하고 25.68%~38.69%의 경우 민감 정보를 유출함을 보여준다. 또한, 각 시드를 여러 시나리오로 확장하여 LM의 프라이버시 위험을 다각적으로 분석하는 PrivacyLens의 동적 특성을 입증한다. 데이터셋과 코드는 GitHub에서 공개한다.