Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

Created by
  • Haebom

저자

Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

개요

본 논문은 대규모 언어 모델(LLM)의 안전 문제를 다루며, 특히 악의적인 콘텐츠의 생성 위험성을 평가한다. "Scam2Prompt"라는 자동화된 감사 프레임워크를 개발하여 사기 사이트의 의도를 파악하고, 이를 모방한 무해한 개발자 스타일의 프롬프트를 생성하여 LLM이 악성 코드를 생성하는지 테스트한다. 네 개의 주요 LLM (GPT-4o, GPT-4o-mini, Llama-4-Scout, DeepSeek-V3)에 대한 대규모 연구 결과, 4.24%의 경우에서 악성 URL 생성이 발생했다. 또한, "Innoc2Scam-bench"를 통해 2025년에 출시된 7개의 추가 LLM에 대한 테스트를 진행한 결과, 12.7%에서 43.8%의 악성 코드 생성률을 보였다. 기존 안전 장치는 이러한 취약점을 제대로 방어하지 못하는 것으로 나타났다.

시사점, 한계점

시사점:
LLM은 악의적인 콘텐츠를 학습하고, 무해한 프롬프트에도 악성 코드를 생성할 수 있는 심각한 보안 취약점을 가지고 있다.
Scam2Prompt와 Innoc2Scam-bench는 이러한 취약점을 평가하고, 악성 코드 생성을 유발하는 프롬프트를 식별하는 데 효과적인 방법론이다.
기존 안전 장치(guardrails)는 LLM의 악성 코드 생성 방지에 효과적이지 않다.
한계점:
연구는 특정 LLM 및 프롬프트 유형에 국한될 수 있으며, 모든 LLM에 일반화하기에는 추가 연구가 필요하다.
악성 코드 생성률은 LLM의 지속적인 업데이트 및 개선에 따라 변동될 수 있다.
Scam2Prompt의 악성 코드 생성 유발 프롬프트 생성 과정은 완벽하지 않을 수 있으며, 추가적인 개선이 필요하다.
👍