본 논문은 소셜 미디어 플랫폼에 깊숙이 통합된 AI 시스템의 새로운 보안 취약성을 밝힙니다. 기존의 적대적 공격을 넘어, 상황 맥락을 활용하는 인간이 읽을 수 있는 상황 기반 적대적 완전 프롬프트가 안전 시스템을 우회하여 유해한 응답을 생성할 수 있음을 보여줍니다. 연구진은 영화 대본을 상황적 맥락 프레임워크로 사용하여 자연스러운 완전 프롬프트를 생성하고, 횡설수설하는 적대적 텍스트를 읽을 수 있고 무해한 콘텐츠로 변환하는 방법을 개발하여 오픈소스 및 독점 LLM의 취약성을 악용하는 공격을 시연했습니다. 또한, p-nucleus 샘플링을 사용하여 다양한 인간이 읽을 수 있는 적대적 텍스트를 생성하는 AdvPrompter 프레임워크를 개선하여 GPT-3.5-Turbo-0125 및 Gemma-7b와 같은 모델에 대한 공격 효과를 크게 향상시켰습니다. 이를 통해, 겉으로는 정상적인 프롬프트에 숨겨진 적대적 요소가 포함된 경우, 이러한 시스템이 의도된 윤리적 경계를 넘어 작동할 수 있음을 보여줍니다. 궁극적으로, 더욱 강력한 안전 메커니즘 개발을 위한 발판을 마련하고자 합니다.