본 논문은 대규모 언어 모델(LLM)의 잠재적 안전 위험에 초점을 맞춰, 특히 모델 내 윤리적 편향이 'jailbreak' 공격에 어떻게 악용될 수 있는지 연구합니다. 논문은 편향으로 인해 GPT-4o 모델에서 특정 키워드(예: 성별, 인종)에 따라 jailbreak 성공률이 크게 달라지는 것을 확인하고, 이러한 편향을 활용하는 'BiasJailbreak' 공격 방식을 제시합니다. 또한, 생성 전에 방어 프롬프트를 주입하여 jailbreak 시도를 방지하는 효율적인 방어 방법인 'BiasDefense'를 제안합니다. 연구 결과는 LLM의 윤리적 편향이 안전하지 않은 출력을 생성할 수 있음을 보여주며, LLM의 안전성과 편향성을 개선하기 위한 방법론을 제시합니다. 연구의 재현 및 발전을 위해 BiasJailbreak에 대한 코드 및 아티팩트를 공개합니다.