본 논문은 대규모 언어 모델(LLM)의 제한 없는 행동을 유도하는 탈옥 공격에 대해 다룬다. 기존의 사전 기반 평가 방식에서는 높은 공격 성공률을 보였지만, GPT 기반 평가에서는 유해한 요청을 충족하는 상세한 내용을 출력하지 못하는 한계가 있었다. 이를 해결하기 위해, 본 논문에서는 유전 알고리즘을 사용하여 시나리오 전환을 최적화하는 블랙박스 탈옥 공격 기법인 GeneShift를 제안한다. GeneShift는 다양한 시나리오 전환 하에서 악의적인 질문이 최적으로 수행된다는 관찰 결과를 바탕으로, 유전 알고리즘을 통해 시나리오 전환의 하이브리드를 진화시키고 선택한다. 이를 통해 은밀성을 유지하면서 상세하고 실행 가능한 유해한 응답을 유도한다. 실험 결과 GeneShift의 우수성을 보여주며, 직접적인 프롬프트만으로는 실패하는 경우 성공률을 0%에서 60%까지 향상시킨다.