본 논문은 대규모 언어 모델(LLM)의 탈옥 공격(jailbreaking attacks)에 대한 방어 기법으로, 맥락 검색(context retrieval) 기반의 새로운 접근 방식인 안전 맥락 검색(SCR, Safety Context Retrieval)을 제안합니다. 기존의 정적 방어 체계의 한계를 극복하기 위해, 특정 탈옥 공격에 대한 소량의 안전 지향적 예시만으로도 강건성을 크게 향상시킬 수 있음을 보여주는 예비 연구 결과를 바탕으로, RAG(Retrieval-Augmented Generation) 기법을 활용하여 SCR을 개발했습니다. 실험 결과, SCR은 기존 및 새로운 탈옥 전술에 대해 우수한 방어 성능을 보였으며, LLM 안전성에 대한 새로운 패러다임을 제시합니다.