Sign In

Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy

Created by
  • Haebom
Category
Empty

저자

Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Reddy Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou

개요

본 논문은 대규모 언어 모델(LLM)의 보안 및 안전 위협(프롬프트 삽입, 프롬프트 추출, 악의적인 요청 등)에 대해 다룹니다. 이러한 취약성의 주요 원인 중 하나는 명령어 계층 구조의 부재이며, 기존 LLM 아키텍처는 모든 입력을 동등하게 취급하여 시스템 메시지, 사용자 프롬프트, 데이터 등 다양한 유형의 명령어를 구분하고 우선순위를 지정하지 못합니다. 따라서 낮은 우선순위의 사용자 프롬프트가 안전 프로토콜을 포함한 중요한 시스템 명령어를 덮어쓸 수 있습니다. 본 논문에서는 BERT에서 영감을 받은 Instructional Segment Embedding (ISE) 기법을 제시합니다. ISE는 명령어 우선순위 정보를 모델에 직접 임베딩하여 모델이 다양한 명령어 유형을 명시적으로 구분하고 우선순위를 지정할 수 있도록 합니다. 실험 결과, Structured Query 및 Instruction Hierarchy 벤치마크에서 각각 최대 15.75%, 18.68%의 강건한 정확도 향상을 보였으며, AlpacaEval을 사용한 평가에서 명령어 따르기 성능이 최대 4.1% 향상되었습니다.

시사점, 한계점

시사점:
LLM의 안전성을 향상시키는 새로운 아키텍처 수준 접근 방식 제시
악의적인 프롬프트로 인한 우선순위 규칙 위반 문제 해결
Structured Query 및 Instruction Hierarchy 벤치마크에서 성능 향상 확인
AlpacaEval에서 명령어 따르기 성능 향상 확인
LLM 아키텍처의 안전성 및 효율성 향상에 대한 유망한 방향 제시
한계점:
제시된 방법의 일반화 성능 및 다양한 LLM 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요
실제 환경에서의 안전성 및 효과에 대한 추가적인 검증 필요
ISE 기법의 계산 비용 및 메모리 사용량에 대한 분석 필요
👍