본 논문은 대규모 언어 모델(LLM)의 보안 및 안전 취약성에 대한 이해를 높이기 위해, Google의 Gemini 2.5 Flash와 OpenAI의 GPT-4(GPT-4o mini)의 Jailbreak 공격에 대한 비교 분석을 제시합니다. '자기 우회' 및 '교차 우회' 전략과 직접 주입, 역할극, 문맥 조작, 난독화를 포함한 4가지 공격 방법을 사용하여 혐오 발언, 불법 활동, 악성 코드, 위험한 콘텐츠, 허위 정보 등 5가지 유형의 안전하지 않은 콘텐츠를 생성했습니다. 성공적인 Jailbreak은 심각도 점수로 평가되었으며, 2.5 Flash와 GPT-4 간의 Jailbreak 취약성 차이를 발견했습니다. 교차 우회 공격이 특히 효과적이었으며, 이는 Transformer 아키텍처의 취약점을 시사합니다. 이 연구는 자동화된 AI 레드팀 구성에 대한 확장 가능한 프레임워크를 제공하고 LLM 안전의 현재 상태에 대한 데이터 기반 통찰력을 제공합니다.