Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Distillability of LLM Security Logic: Predicting Attack Success Rate of Outline Filling Attack via Ranking Regression

Created by
  • Haebom
Category
Empty

저자

Tianyu Zhang, Zihang Xi, Jingyu Hua, Sheng Zhong

개요

본 연구는 대규모 언어 모델(LLM)에 대한 블랙박스 탈옥 공격에서 공격 성공률(ASR)을 예측하는 경량 모델인 좁은 안전성 프록시 구축의 가능성을 탐구한다. LLM의 핵심 보안 로직의 증류 가능성을 조사하기 위해, 향상된 개요 채우기 공격을 통합하여 모델의 보안 경계를 조밀하게 샘플링하는 새로운 프레임워크를 제안한다. 또한, 표준 회귀를 대체하는 순위 회귀 패러다임을 도입하여 프록시 모델이 어떤 프롬프트가 더 높은 ASR을 생성하는지 예측하도록 훈련시킨다. 실험 결과, 제안된 프록시 모델은 평균 긴 응답(ALR)의 상대적 순위를 예측하는 데 91.1%, ASR을 예측하는 데 69.2%의 정확도를 달성했다.

시사점, 한계점

시사점:
탈옥 행동의 예측 가능성과 증류 가능성을 확인.
블랙박스 공격 최적화를 위해 이러한 증류 가능성을 활용할 가능성 제시.
프록시 모델은 공격 성공률(ASR) 및 평균 긴 응답(ALR)의 상대적 순위 예측에서 상당한 정확도 달성.
한계점:
ASR 예측 정확도는 ALR 예측보다 낮음.
제시된 프레임워크의 일반화 가능성에 대한 추가적인 연구 필요.
좁은 안전성 프록시의 실제 공격 환경 적용에 대한 추가적인 실험 필요.
👍