Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PII-Scope: A Comprehensive Study on Training Data PII Extraction Attacks in LLMs

Created by
  • Haebom

저자

Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou

개요

본 논문은 대규모 언어 모델(LLM)을 대상으로 개인정보(PII) 추출 공격을 평가하기 위한 종합적인 벤치마크인 PII-Scope를 소개합니다. 다양한 위협 환경에서 최첨단 PII 추출 공격 방법론을 평가하고, 효과에 중요한 여러 하이퍼파라미터(예: 데모 선택)를 밝혀냄으로써 이러한 공격에 대한 더 깊은 이해를 제공합니다. 반복적이고 다양한 질의와 반복적인 학습을 활용하는 고급 적대적 전략을 사용하는 PII 공격을 탐구하여 더 현실적인 공격 시나리오로 연구를 확장합니다. 광범위한 실험을 통해 기존의 단일 질의 공격에서는 PII 유출을 상당히 과소평가하고 있음을 보여주며, 정교한 적대적 기능과 제한된 질의 예산을 사용하면 사전 훈련된 모델을 대상으로 PII 추출률이 최대 5배까지 증가할 수 있음을 보여줍니다. 또한 미세 조정된 모델에서 PII 유출을 평가하여 사전 훈련된 모델보다 유출에 더 취약함을 보여줍니다. 전반적으로 본 연구는 현실적인 위협 시나리오에서 PII 추출 공격에 대한 엄격한 경험적 벤치마크를 확립하고 효과적인 완화 전략을 개발하기 위한 강력한 기반을 제공합니다.

시사점, 한계점

시사점:
현실적인 위협 시나리오에서 LLM의 PII 유출 취약성에 대한 깊이 있는 이해 제공
기존 단일 질의 공격의 한계를 밝히고, 적대적 공격의 효과를 정량적으로 제시
사전 훈련 및 미세 조정된 모델의 PII 유출 취약성 비교 분석
효과적인 PII 유출 방지 전략 개발을 위한 기반 마련
한계점:
PII-Scope 벤치마크의 일반화 가능성에 대한 추가 연구 필요
더욱 다양하고 복잡한 적대적 공격 전략에 대한 추가적인 평가 필요
제시된 완화 전략의 실효성에 대한 추가적인 검증 필요
👍