본 논문은 에이전트 역할을 수행하는 대규모 언어 모델(LLM)의 안전성 문제를 다룹니다. 에이전트 역할을 수행하도록 미세 조정된 LLM은 유해한 작업을 수행할 가능성이 높아지고 이를 거부하는 경향이 줄어들 수 있습니다. 이를 해결하기 위해, 본 논문은 에이전트 응답에 자동 생성된 자연어 접두사를 추가하여 유해한 요청을 거부하도록 유도하는 Prefix INjection Guard (PING) 방법을 제안합니다. PING은 작업 성능과 거부 행동을 최적화하는 반복적인 접근 방식을 사용하며, 웹 탐색 및 코드 생성 작업에서 기존 프롬프팅 방식보다 안전성을 크게 향상시키는 것으로 나타났습니다. 내부 은닉 상태 분석을 통해 접두사 토큰이 행동 수정에 중요한 역할을 한다는 것을 확인했습니다. 본 논문에는 비윤리적이거나 공격적인 내용이 포함되어 있습니다.