Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PrivacyRestore: Privacy-Preserving Inference in Large Language Models via Privacy Removal and Restoration

Created by
  • Haebom

저자

Ziqian Zeng, Jianwei Wang, Junyao Yang, Zhengdong Lu, Haoran Li, Huiping Zhuang, Cen Chen

개요

본 논문은 온라인 대규모 언어 모델(LLM) 추론 서비스의 광범위한 사용으로 인해 사용자 입력의 개인 정보가 악의적인 도청자에게 노출될 가능성에 대한 심각한 우려가 제기됨에 따라, 기존의 LLM 개인 정보 보호 방법들이 개인 정보 보호, 성능 저하 또는 추론 시간 오버헤드 증가 문제를 가지고 있음을 지적합니다. 이러한 한계를 해결하기 위해, 본 논문에서는 LLM 추론 중 사용자 입력의 개인 정보를 보호하는 플러그 앤 플레이 방식인 PrivacyRestore를 제안합니다. PrivacyRestore는 개인 정보가 포함된 연속적인 토큰 시퀀스인 개인 정보 범위(privacy span)에 대한 복원 벡터를 서버에서 훈련한 후 클라이언트에 제공합니다. 클라이언트는 입력에서 모든 개인 정보 범위의 복원 벡터를 단일 메타 복원 벡터로 집계하여 개인 정보 범위를 제거한 입력과 함께 서버로 전송합니다. 추론 중 활성화 조향(activation steering)을 통해 개인 정보가 복원됩니다. 또한, PrivacyRestore는 개인 정보 예산의 선형 성장을 방지함을 증명합니다. 의료 및 법률 영역을 포함하는 세 가지 데이터 세트를 생성하여 개인 정보 보호 방법의 효과를 평가하였으며, 실험 결과 PrivacyRestore가 개인 정보를 효과적으로 보호하고 허용 가능한 수준의 성능과 추론 오버헤드를 유지함을 보여줍니다.

시사점, 한계점

시사점:
LLM 추론 과정에서 개인 정보 보호를 위한 효과적이고 효율적인 플러그 앤 플레이 방식인 PrivacyRestore 제시.
개인 정보 예산의 선형 성장 방지 증명.
의료 및 법률 영역 등 다양한 실제 데이터셋을 사용한 실험을 통해 성능 검증.
기존 방법들의 한계점인 개인 정보 보호, 성능 저하, 추론 시간 오버헤드 문제를 효과적으로 해결.
한계점:
제시된 세 가지 데이터셋의 일반화 가능성에 대한 추가 연구 필요.
다양한 LLM 아키텍처 및 크기에 대한 PrivacyRestore의 적용 가능성 및 성능 평가 필요.
복원 벡터 생성 및 전송에 대한 추가적인 비용 및 자원 소모에 대한 분석 필요.
실제 공격 시나리오에 대한 더욱 포괄적인 보안 분석 필요.
👍