대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 능력을 보이지만, 안전 관련 위험성을 내포하고 있다. 특히, 악의적인 입력으로 LLM이 안전 정렬을 우회하여 유해한 콘텐츠를 생성하도록 유도하는 'jailbreak'가 발생할 수 있다. 본 논문은 LLM의 윤리적 편향을 탐구하고, 이러한 편향이 jailbreak에 어떻게 악용될 수 있는지 분석한다. 특히, GPT-4o 모델에서 비(non)-이분법적 성별 관련 키워드와 시스젠더 관련 키워드 간 jailbreaking 성공률이 20% 차이, 백인 관련 키워드와 흑인 관련 키워드 간 성공률이 16% 차이를 보였다. 본 연구는 이러한 안전성 유도 편향으로 인한 위험성을 강조하며, BiasJailbreak 개념을 제시한다. BiasJailbreak는 대상 LLM 자체를 사용하여 편향된 키워드를 자동으로 생성하고, 이를 활용하여 유해한 출력을 생성한다. 또한, 생성 전에 방어 프롬프트를 주입하여 jailbreak 시도를 방지하는 효율적인 방어 방법인 BiasDefense를 제안한다. BiasDefense는 텍스트 생성 후 추가적인 추론 비용이 필요한 Llama-Guard와 같은 Guard Model의 대안이 될 수 있다. 본 연구 결과는 LLM의 윤리적 편향이 유해한 출력을 생성할 수 있음을 강조하며, LLM을 더욱 안전하고 편향되지 않게 만드는 방법을 제시한다. 추가 연구와 개선을 위해 BiasJailbreak의 코드와 아티팩트를 오픈 소스로 공개한다.