본 논문은 대규모 언어 모델(LLM)의 안전성 문제를 해결하기 위해, LLM의 추론 능력을 활용한 새로운 탈옥(jailbreak) 기법인 PUZZLED를 제시합니다. PUZZLED는 유해한 지시어의 키워드를 워드 서치, 애너그램, 크로스워드 등의 퍼즐로 변형하여 LLM이 퍼즐을 풀고 키워드를 복원한 후 유해한 지시어에 응답하게 만드는 방식입니다. 5개의 최첨단 LLM을 대상으로 평가한 결과, 평균 88.8%의 높은 공격 성공률을 보였으며, 특히 GPT-4.1에서는 96.5%, Claude 3.7 Sonnet에서는 92.3%의 성공률을 기록했습니다. 이는 LLM의 추론 능력을 활용하여 친숙한 퍼즐을 효과적인 탈옥 전략으로 전환하는 간단하지만 강력한 공격 기법임을 보여줍니다.