본 논문은 대규모 언어 모델(LLM)의 안전 문제를 다루며, 특히 악의적인 콘텐츠의 생성 위험성을 평가한다. "Scam2Prompt"라는 자동화된 감사 프레임워크를 개발하여 사기 사이트의 의도를 파악하고, 이를 모방한 무해한 개발자 스타일의 프롬프트를 생성하여 LLM이 악성 코드를 생성하는지 테스트한다. 네 개의 주요 LLM (GPT-4o, GPT-4o-mini, Llama-4-Scout, DeepSeek-V3)에 대한 대규모 연구 결과, 4.24%의 경우에서 악성 URL 생성이 발생했다. 또한, "Innoc2Scam-bench"를 통해 2025년에 출시된 7개의 추가 LLM에 대한 테스트를 진행한 결과, 12.7%에서 43.8%의 악성 코드 생성률을 보였다. 기존 안전 장치는 이러한 취약점을 제대로 방어하지 못하는 것으로 나타났다.