Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Anti-adversarial Learning: Desensitizing Prompts for Large Language Models

Created by
  • Haebom
Category
Empty

저자

Xuan Li, Zhe Yin, Xiaodong Gu, Beijun Shen

개요

본 논문은 LLM 사용 시 사용자 프롬프트 내 개인정보 보호의 중요성을 인식하고, 프롬프트 내 민감 정보를 난독화하는 새로운 방법인 PromptObfus를 제안한다. PromptObfus는 "anti-adversarial" 학습을 기반으로, 프롬프트 내 개인정보 관련 단어를 변경하여 민감 정보를 가리는 동시에 모델 예측의 안정성을 유지한다. 구체적으로, 프롬프트 난독화를 masked language modeling task로 구성하여 민감 단어를 [MASK] 토큰으로 대체하고, 대리 모델의 gradient feedback을 활용하여 최적의 대체 단어를 선택한다. 제안된 방법은 세 가지 NLP task에서 효과적으로 개인정보 유출을 방지하면서 task 성능을 유지함을 보인다.

시사점, 한계점

시사점:
LLM 프롬프트 내 개인정보 보호 문제에 대한 새로운 해결책 제시.
"anti-adversarial" 학습 기반의 독창적인 접근 방식.
다양한 NLP task에서 효과적인 성능 입증.
한계점:
세부적인 구현 방법 및 성능에 대한 추가적인 분석 필요.
다른 개인정보 보호 기법과의 비교 분석 부족.
다양한 LLM 모델에 대한 적용 및 평가 필요.
👍