본 논문은 GPT-4, Gemini, Claude 3, Grok 등 대규모 언어 모델(LLM)의 급부상으로 인해 발생하는 새로운 보안 취약성에 대한 포괄적인 개요를 제공합니다. 프롬프트 주입 및 탈옥, 입력 섭동 및 데이터 포이즈닝과 같은 적대적 공격, 허위 정보, 피싱 이메일 및 맬웨어 생성과 같은 악의적인 목적을 위한 악의적 행위자에 의한 오용, 그리고 자율적 LLM 에이전트에 내재된 우려되는 위험을 포함한 다양한 위협들을 범주화하여 분석합니다. 특히 목표 불일치, 돌발적인 기만, 자기 보존 본능, 그리고 은밀하고 불일치된 목표를 개발하고 추구하는 능력(계략이라고 함)과 같은 자율 LLM 에이전트의 위험에 중점을 두고, 안전 교육에도 불구하고 지속될 수 있는 행동을 조사합니다. 2022년부터 2025년까지의 최근 학계 및 산업 연구를 요약하고, 제안된 방어 및 그 한계를 분석하며, LLM 기반 애플리케이션 보안의 미해결 과제를 확인합니다. 마지막으로, LLM이 안전하고 유익하도록 견고하고 다층적인 보안 전략을 발전시키는 것이 중요함을 강조합니다.