본 논문은 대규모 언어 모델(LLM)의 사용 증가로 인해 사용자 프롬프트 내 개인 식별 정보(PII) 노출에 대한 우려가 커짐에 따라, 질의와 무관한 PII 마스킹 전략을 제안하고 PII 보호 시스템 평가를 위한 첫 번째 종합적인 평가 프레임워크인 PII-Bench를 소개합니다. PII-Bench는 55개의 세분화된 PII 범주에 걸쳐 2,842개의 테스트 샘플로 구성되며, 단일 주제 설명부터 복잡한 다중 당사자 상호 작용까지 다양한 시나리오를 포함합니다. 각 샘플은 사용자 질의, 컨텍스트 설명 및 질의 관련 PII를 나타내는 표준 답변으로 신중하게 제작되었습니다. 실증적 평가 결과, 현재 모델은 기본적인 PII 탐지에는 적절하게 수행되지만 PII 질의 관련성을 결정하는 데는 상당한 한계를 보이는 것으로 나타났습니다. 최첨단 LLM조차도 이 작업, 특히 복잡한 다중 주제 시나리오 처리에 어려움을 겪어 지능형 PII 마스킹 달성을 위한 상당한 개선 여지가 있음을 시사합니다.