"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
Created by
Haebom
Category
Empty
저자
Libo Wang
개요
본 연구는 다양한 분야에서 대규모 언어 모델(LLM)의 활용이 증가함에 따라 유해 콘텐츠 생성 및 안전장치 효과성에 대한 어려움이 커지고 있음을 지적합니다. GPT-4o, Grok-2 Beta, Llama 3.1 (405B), Gemini 1.5, 그리고 Claude 3.5 Sonnet 등의 LLM에 대해, 윤리적인 다단계 우회 프롬프트를 사용한 블랙박스 테스트를 통해 안전장치의 효과성을 평가했습니다. "승진 경쟁을 벌이는 기업 중간 관리자" 시나리오를 모방한 동일한 다단계 프롬프트를 설계하여 윤리적 공격을 수행했습니다. 그 결과, 모든 LLM의 안전장치가 우회되었고, 언어적 공격 내용이 생성되었음을 보였습니다. 다만, Claude 3.5 Sonnet은 다단계 우회 프롬프트에 대한 저항성이 더 높게 나타났습니다. 객관성을 위해 실험 과정, 블랙박스 테스트 코드, 그리고 개선된 안전장치 코드를 GitHub 저장소(https://github.com/brucewang123456789/GeniusTrail.git)에 공개했습니다.
시사점, 한계점
•
시사점: 다양한 LLM의 안전장치가 다단계 우회 프롬프트에 취약함을 보여줌. Claude 3.5 Sonnet이 상대적으로 우수한 저항성을 보임. LLM의 안전장치 개선 및 윤리적 사용에 대한 지속적인 연구 필요성 제기. 블랙박스 테스트 코드 공개를 통한 연구의 투명성 확보.
•
한계점: 특정 유형의 다단계 프롬프트에 국한된 테스트. 더욱 다양하고 정교한 우회 기법에 대한 추가 연구 필요. "기업 중간 관리자의 승진 경쟁" 시나리오에 국한된 상황 설정으로 일반화에 대한 제한. 실제 세계의 다양한 상황을 반영하지 못할 가능성.