본 논문은 대규모 언어 모델(LLM)의 악성 콘텐츠 생성 위험에 대한 기존 연구들이 직접적으로 악성 콘텐츠를 생성하는 것보다 기존 콘텐츠를 악성 형태로 변형하는 것이 더 쉽다는 점을 간과하고 있음을 지적합니다. 이에 연구진은 적대적 은유(AdVersArial meTAphoR, AVATAR)를 이용하여 LLM을 악성 은유로 변형시키는 새로운 공격 프레임워크를 제시합니다. AVATAR는 악의적인 질문에 답변하기 위해, 논리적으로 관련된 무해한 은유들을 초기 시드로 사용합니다. 그런 다음, 이러한 은유들을 기반으로 LLM이 은유적 내용에 대해 추론하고 변형하도록 유도하여, 직접적으로 악성 응답을 출력하거나 은유적 내용과 전문적인 악성 콘텐츠 간의 차이를 변형시킴으로써 LLM을 공격합니다. 실험 결과, AVATAR는 다양한 최첨단 LLM에 대해 효과적이고 이전성 있는 공격 성공률을 달성함을 보여줍니다.