Sign In

Privacy Auditing of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Ashwinee Panda, Xinyu Tang, Milad Nasr, Christopher A. Choquette-Choo, Prateek Mittal

개요

본 논문은 대규모 언어 모델(LLM)의 개인정보 감사를 위한 기존 기법의 효과가 제한적이라는 점을 지적하며, 더욱 효과적인 "카나리아(canaries)" 생성 방법을 제시합니다. 기존 방법보다 현실적인 위협 모델 하에서 훨씬 효과적인 카나리아를 개발하여 다양한 미세 조정된 LLM에 대한 광범위한 실험을 통해 개인정보 유출 탐지에 대한 새로운 기준을 제시합니다. 특히 비개인정보 보호 방식으로 훈련된 LLM의 기억률 측정에서 기존 접근 방식을 능가하는 성능을 보이며, 예를 들어 Qwen2.5-0.5B 모델에서 1% FPR에서 49.6% TPR을 달성하여 기존 접근 방식의 4.2% TPR을 크게 능가합니다. 또한 공격자가 섀도우 모델을 훈련하거나, 그래디언트 카나리아를 삽입하거나, 매 반복마다 모델에 접근할 수 없는 설정에서 LLM 훈련의 개인정보 감사에 있어 중요한 성공을 거둔 최초의 사례라고 주장합니다. 이를 통해 이론적 ε이 4인 모델에 대해 ε ≈ 1의 개인정보 감사를 제공할 수 있습니다.

시사점, 한계점

시사점:
기존 LLM 개인정보 감사 기법의 한계를 극복하고 더욱 효과적인 개인정보 유출 탐지 방법을 제시.
현실적인 위협 모델을 고려한 강력한 카나리아 생성 기법 개발.
다양한 LLM에서 개인정보 유출 탐지 성능 향상을 실험적으로 입증.
공격자의 제약이 많은 환경에서도 유의미한 개인정보 감사 성공.
기존 방법 대비 획기적으로 향상된 개인정보 유출 탐지 성능 (예: Qwen2.5-0.5B 모델에서 TPR 4.2% → 49.6% at 1% FPR).
한계점:
제시된 방법의 일반화 가능성에 대한 추가 연구 필요.
다양한 LLM 아키텍처 및 훈련 데이터에 대한 추가적인 실험 필요.
실제 개인정보 유출 사례에 대한 적용 및 검증 필요.
새로운 공격 기법에 대한 취약성 평가 필요.
👍