Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

Created by
  • Haebom

저자

Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu

개요

본 연구는 파인 튜닝 과정에서 대형 언어 모델(LLM)이 데이터 포이즈닝 백도어 공격에 취약하다는 점에 주목하여, 일반적이고 효과적인 백도어 방어 알고리즘인 Poison-to-Poison(P2P)를 제안한다. P2P는 안전한 대체 레이블을 가진 양성 트리거를 훈련 샘플의 일부에 주입하고, 프롬프트 기반 학습을 활용하여 이 재-포이즌된 데이터셋에 모델을 미세 조정한다. 이를 통해 트리거로 유도된 표현을 안전한 출력과 연결하도록 하여 원래의 악의적인 트리거의 영향을 무력화한다. P2P는 다양한 작업 설정 및 공격 유형에서 효과적이며, 이론적 및 실증적으로 백도어를 무력화하면서 작업 성능을 유지할 수 있음을 입증했다. 분류, 수학적 추론, 요약 생성 등 다양한 작업과 여러 최첨단 LLM에 대한 광범위한 실험을 수행하여 P2P 알고리즘이 기준 모델에 비해 공격 성공률을 크게 감소시킨다는 것을 확인했다.

시사점, 한계점

시사점:
다양한 작업 설정 및 공격 유형에 대해 효과적인 일반적인 백도어 방어 알고리즘 제시.
트리거 기반의 미세 조정을 통해 악의적인 백도어 공격을 무력화하면서 작업 성능을 유지.
분류, 수학적 추론, 요약 생성 등 다양한 작업에 대한 실험을 통해 효과 입증.
안전하고 신뢰할 수 있는 LLM 커뮤니티 발전에 기여.
한계점:
논문에 구체적인 한계점 언급 없음.
👍