본 논문은 차등적 프라이버시(DP) 기법이 적용된 텍스트에서도 대규모 언어 모델(LLM)이 개인정보를 재구성할 수 있음을 밝힙니다. 연구진은 LLM의 접근성에 따라 블랙박스 공격과 화이트박스 공격 두 가지를 제안하며, DP 처리된 텍스트와 LLM의 개인정보보호를 위한 학습 데이터 간의 연결 가능성을 실험적으로 증명합니다. LLaMA-2, LLaMA-3, ChatGPT 등 다양한 LLM과 WikiMIA, Pile-CC 등의 데이터셋을 사용하여 단어 수준과 문장 수준의 DP에 대한 실험을 진행하였으며, 높은 재구성 성공률을 확인했습니다. 예를 들어, WikiMIA 데이터셋에서 단어 수준 DP에 대한 블랙박스 공격은 LLaMA-2 (70B)에서 72.18%, LLaMA-3 (70B)에서 82.39%, ChatGPT-4o에서 91.2%, Claude-3.5에서 94.01%의 성공률을 보였습니다. 이는 기존 DP 기법의 보안 취약성을 드러내며, LLM 자체가 새로운 보안 위협 요소임을 시사합니다.