Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Created by
  • Haebom

저자

Sanjay Kariyappa, G. Edward Suh

개요

본 논문은 대규모 언어 모델(LLM)의 심각한 보안 취약점인 프롬프트 주입 공격에 대한 새로운 방어 기법을 제시한다. 기존 방어 기법들은 입력 토큰의 권한 수준을 나타내는 지시어 계층(Instruction Hierarchy, IH) 신호를 주로 초기 입력 계층에만 주입하는 반면, 본 논문에서는 IH 신호를 네트워크 내 중간 토큰 표현에 주입하는 새로운 방법을 제안한다. 이는 계층별로 학습 가능한 임베딩을 사용하여 권한 정보를 인코딩함으로써, 다양한 계층에서의 권한 수준 구분 능력을 향상시킨다. 실험 결과, 기존 최첨단 기법들에 비해 기울기 기반 프롬프트 주입 공격 성공률을 1.6배에서 9.2배까지 감소시키는 것을 확인했다. 모델 유용성 저하 없이 성능 향상을 달성했다는 점이 특징이다.

시사점, 한계점

시사점:
네트워크 내 중간 계층에 IH 신호를 주입하는 새로운 방식을 통해 기존 방어 기법의 한계를 극복했다.
기울기 기반 프롬프트 주입 공격에 대한 방어 성능을 상당히 향상시켰다.
모델 유용성 저하 없이 보안성을 강화할 수 있는 효과적인 방법을 제시했다.
한계점:
제시된 방법의 효과가 모든 유형의 프롬프트 주입 공격에 동일하게 적용될지는 추가 연구가 필요하다.
특정 모델 및 훈련 방법에 대한 실험 결과이므로, 다른 모델이나 상황에서는 성능이 달라질 수 있다.
계층별 학습 가능한 임베딩의 크기 및 설계에 따른 성능 변화에 대한 분석이 부족하다.
👍