Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SecInfer: Preventing Prompt Injection via Inference-time Scaling

Created by
  • Haebom
Category
Empty

저자

Yupei Liu, Yanting Wang, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong

개요

Prompt injection 공격은 대규모 언어 모델(LLM)의 보안에 심각한 위협을 가합니다. 본 논문에서는 추론 시 컴퓨팅 자원을 더 할당하여 LLM의 성능을 향상시키는 새로운 패러다임인 '추론 시간 스케일링'을 기반으로 하는 프롬프트 주입 공격 방어 기법인 SecInfer를 제안합니다. SecInfer는 시스템 프롬프트 가이드 샘플링(다양한 시스템 프롬프트를 통해 다양한 추론 경로를 탐색하여 주어진 입력에 대한 여러 응답을 생성)과 대상 작업 가이드 집계(의도된 작업을 가장 잘 수행할 가능성이 있는 응답을 선택)의 두 단계로 구성됩니다. 실험 결과, SecInfer는 추론 시간에 추가 컴퓨팅을 활용하여 기존 및 적응형 프롬프트 주입 공격을 효과적으로 완화하며, 최첨단 방어 기법과 기존 추론 시간 스케일링 접근 방식을 능가합니다.

시사점, 한계점

시사점:
추론 시간 스케일링을 활용하여 프롬프트 주입 공격에 대한 효과적인 방어 기법 제시
기존 및 적응형 공격 모두에 대해 높은 방어 성능 달성
최첨단 방어 기법 및 기존 추론 시간 스케일링 방식보다 우수한 성능
한계점:
구체적인 한계점에 대한 언급은 논문 요약에 포함되어 있지 않음 (연구 결과의 일반화 가능성, 계산 비용 등 구체적인 내용은 알 수 없음)
논문의 전체 내용을 알 수 없으므로, 잠재적인 한계점을 명확히 파악하기 어려움
👍