본 논문은 개인화된 AI 어시스턴트, 특히 개인 사용자의 데이터를 활용하는 프라이빗 AI 모델의 개인화에 중점을 둡니다. 사용자의 대화 기록, 사용자-AI 상호작용, 앱 사용 등의 민감한 개인 데이터를 활용하여 사용자의 전기 정보, 선호도, 사회적 연결 등을 이해하는 AI 모델의 능력 평가를 위해 공개적으로 사용 가능한 데이터셋이 부재하다는 점을 지적합니다. 이를 해결하기 위해, 다양하고 현실적인 사용자 프로필과 개인 활동을 시뮬레이션한 개인 문서를 생성하는 합성 데이터 생성 파이프라인을 제시하고, 이를 바탕으로 PersonaBench라는 벤치마크를 제안합니다. PersonaBench는 시뮬레이션된 개인 사용자 데이터에서 파생된 개인 정보를 이해하는 AI 모델의 성능을 평가하도록 설계되었습니다. 본 논문에서는 관련 개인 문서를 지원받아 사용자의 개인 정보와 직접적으로 관련된 질문을 사용하여 Retrieval-Augmented Generation (RAG) 파이프라인을 평가하고, 현재 RAG 기반 AI 모델이 사용자 문서에서 개인 정보를 추출하여 개인 정보 관련 질문에 답하는 데 어려움을 겪는다는 것을 보여줍니다. 이는 AI의 개인화 기능을 향상시키기 위한 향상된 방법론의 필요성을 강조합니다.