Evolving Prompts for Toxicity Search in Large Language Models
Created by
Haebom
Category
Empty
저자
Onkar Shelar, Travis Desell
개요
본 논문은 안전성 정렬 이후에도 유해 콘텐츠를 생성하는 적대적 프롬프트에 취약한 대규모 언어 모델(LLM)의 문제점을 다룹니다. ToxSearch라는 블랙박스 진화 프레임워크를 제안하여, 동기식 정상 상태 루프 내에서 프롬프트를 진화시켜 모델 안전성을 테스트합니다. 이 시스템은 어휘 대체, 부정, 역 번역, 패러프레이징 및 두 가지 의미적 교차 연산자를 포함한 다양한 연산자를 사용하며, 적합성 지침을 제공하기 위해 중재 오라클을 활용합니다.
시사점, 한계점
•
시사점:
◦
작고 제어 가능한 변화가 체계적인 레드팀을 위한 효과적인 수단임을 제시합니다.
◦
방어 전략은 단일 모델 강화에만 집중하기보다는 적대적 프롬프트의 모델 간 재사용을 예상해야 함을 시사합니다.
◦
어휘 대체가 최적의 수율-분산 균형을 제공하며, 의미적 유사성 교차는 정밀한 저처리량 삽입자 역할을 합니다.
◦
전역 재작성은 높은 분산성을 보이며 거부 비용이 높습니다.
◦
LLaMA 3.1 8B에서 진화된 엘리트 프롬프트를 사용한 결과, 의미 있는 수준의 교차 모델 전이가 관찰되었으며, 독성 수준은 대부분의 대상에서 약 절반으로 감소했습니다.
◦
더 작은 LLaMA 3.2 변종은 가장 강력한 저항력을 보였고, 일부 교차 아키텍처 모델은 더 높은 독성을 유지했습니다.
•
한계점:
◦
제시된 구체적인 한계점은 논문 요약에서 직접적으로 언급되지 않았습니다. (하지만 논문 자체에서 더 자세한 내용을 확인할 수 있을 것입니다.)