Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PANORAMA: A synthetic PII-laced dataset for studying sensitive data memorization in LLMs

Created by
  • Haebom

저자

Sriram Selvam, Anneswa Ghosh

개요

본 논문은 대규모 언어 모델(LLM)의 민감한 개인정보(PII) 암기로 인한 증가하는 프라이버시 위험에 대해 다룹니다. 기존 연구는 현실적이고 윤리적인 데이터셋 부족으로 어려움을 겪었는데, 본 논문에서는 온라인 환경의 PII 및 민감한 데이터의 분포, 다양성, 맥락을 정확하게 모방하도록 설계된 9,674개의 합성 프로필에서 파생된 384,789개의 샘플로 구성된 대규모 합성 코퍼스인 PANORAMA를 소개합니다. PANORAMA는 다양한 콘텐츠 유형(위키 스타일 기사, 소셜 미디어 게시물 등)을 생성하며, Mistral-7B 모델을 이용한 실험을 통해 반복 횟수에 따른 PII 암기율 증가와 콘텐츠 유형에 따른 변화를 보여줍니다. 데이터셋과 코드는 공개적으로 제공되어 프라이버시 위험 평가, 모델 감사 및 프라이버시 보호 LLM 개발에 활용될 수 있습니다.

시사점, 한계점

시사점:
현실적인 PII 데이터셋의 부재 문제 해결을 위한 PANORAMA 데이터셋 제공.
LLM의 PII 암기율과 콘텐츠 유형 간의 상관관계 규명.
프라이버시 위험 평가, 모델 감사 및 프라이버시 보호 LLM 개발을 위한 중요한 자원 제공.
LLM의 PII 암기 메커니즘에 대한 이해 증진.
한계점:
합성 데이터셋이므로 실제 데이터와의 차이 존재 가능성.
사용된 모델(Mistral-7B)의 일반화 가능성 제한.
다양한 LLM 및 데이터셋에 대한 추가 연구 필요.
합성 데이터의 한계로 인한 실제 세계의 복잡성 완벽 반영 어려움.
👍