Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evolving Prompts for Toxicity Search in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Onkar Shelar, Travis Desell

개요

본 논문은 안전성 정렬 이후에도 유해 콘텐츠를 생성하는 적대적 프롬프트에 취약한 대규모 언어 모델(LLM)의 문제점을 다룹니다. ToxSearch라는 블랙박스 진화 프레임워크를 제안하여, 동기식 정상 상태 루프 내에서 프롬프트를 진화시켜 모델 안전성을 테스트합니다. 이 시스템은 어휘 대체, 부정, 역 번역, 패러프레이징 및 두 가지 의미적 교차 연산자를 포함한 다양한 연산자를 사용하며, 적합성 지침을 제공하기 위해 중재 오라클을 활용합니다.

시사점, 한계점

시사점:
작고 제어 가능한 변화가 체계적인 레드팀을 위한 효과적인 수단임을 제시합니다.
방어 전략은 단일 모델 강화에만 집중하기보다는 적대적 프롬프트의 모델 간 재사용을 예상해야 함을 시사합니다.
어휘 대체가 최적의 수율-분산 균형을 제공하며, 의미적 유사성 교차는 정밀한 저처리량 삽입자 역할을 합니다.
전역 재작성은 높은 분산성을 보이며 거부 비용이 높습니다.
LLaMA 3.1 8B에서 진화된 엘리트 프롬프트를 사용한 결과, 의미 있는 수준의 교차 모델 전이가 관찰되었으며, 독성 수준은 대부분의 대상에서 약 절반으로 감소했습니다.
더 작은 LLaMA 3.2 변종은 가장 강력한 저항력을 보였고, 일부 교차 아키텍처 모델은 더 높은 독성을 유지했습니다.
한계점:
제시된 구체적인 한계점은 논문 요약에서 직접적으로 언급되지 않았습니다. (하지만 논문 자체에서 더 자세한 내용을 확인할 수 있을 것입니다.)
👍