본 연구는 검색 증강 생성(RAG) 시스템에서 발생하는 민감한 개인정보(PII)의 맥락적 유출 문제를 해결하기 위해 새로운 프라이버시 정책 강제(PPE) 프레임워크를 제안합니다. 텍스트 임베딩과 보정된 기권 영역을 활용한 이중 원-클래스 밀도 추정기를 사용하여, 기존 방식으로는 탐지하기 어려운 비정형 데이터의 잠재적 유출을 효과적으로 탐지합니다. 합성 데이터를 이용한 실험 결과, 제안하는 T3+OCSVM 탐지기가 기존 방법 대비 뛰어난 성능과 낮은 오탐율을 보이면서도 실시간 처리가 가능함을 입증했습니다.
🔑 시사점 및 한계
•
RAG 시스템에서 단순 PII 필터를 넘어선 맥락적 데이터 유출 탐지의 중요성과 새로운 접근 방식 제시
•
제안된 PPE 프레임워크가 높은 탐지 성능과 낮은 오탐율을 동시에 달성하며 실시간 처리 가능성을 입증
•
합성 데이터 기반의 훈련 방식이 실제 환경에서의 일반화 성능 및 윤리적 고려 사항에 대한 추가 연구 필요성 제기