대규모 언어 모델(LLM)은 몇 가지 예시를 통해 새로운 작업을 학습하는 놀라운 능력을 보여준다. 그러나 이러한 유연성은 안전 문제를 야기하는데, LLM은 잘못되거나 악의적인 예시의 영향을 받을 수 있다. 본 논문에서는 유해한 시연이 모델 성능을 저하시키는 정도를 제한하는 새로운 접근 방식을 제안한다. 먼저, 모델의 "안전한" 기본 동작(zero-shot)을 정의하고, 분포 무관 위험 제어(DFRC)를 적용하여 in-context 샘플이 zero-shot 이하로 성능을 저하시키는 정도를 제어한다. 동적 조기 종료 예측을 활용하여 유해한 입력에 가장 많이 집중하는 후기 어텐션 헤드를 무시한다. 마지막으로, DFRC에 대한 수정을 제안하여 유해한 입력에 대한 위험을 제어하는 동시에 유용한 입력에 대한 성능 및 효율성 향상을 얻는다.