Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates

Created by
  • Haebom

저자

Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Haon Park

X-Teaming Evolutionary M2S: 자동화된 프레임워크를 통한 M2S 템플릿 발견 및 최적화

개요

본 논문은 반복적인 Red-Teaming을 하나의 구조화된 프롬프트로 압축하는 Multi-turn-to-single-turn (M2S) 접근 방식에 대해, 기존의 수동으로 작성된 템플릿의 한계를 극복하기 위해 언어 모델 기반 진화를 통해 M2S 템플릿을 자동적으로 발견하고 최적화하는 X-Teaming Evolutionary M2S 프레임워크를 제시합니다. 이 프레임워크는 12개의 소스에서 스마트 샘플링을 수행하고, StrongREJECT에서 영감을 받은 LLM-as-judge를 사용하여 완전한 감사 로그를 기록합니다. 성공 임계값을 $\theta = 0.70$으로 설정하여 5세대의 진화를 통해 두 개의 새로운 템플릿 군을 얻었으며, GPT-4.1에서 44.8%의 전체 성공률 (103/230)을 달성했습니다. 또한, 구조적 이득은 대상에 따라 다르며, 프롬프트 길이와 점수 사이에 양의 상관관계가 있음을 발견했습니다.

시사점, 한계점

시사점:
구조적 수준의 탐색이 더 강력한 단일 턴 프로브를 위한 재현 가능한 방법임을 입증했습니다.
임계값 보정 및 교차 모델 평가의 중요성을 강조합니다.
프롬프트 길이와 점수 간의 긍정적 관계를 발견하여 길이 인식 평가의 필요성을 제기했습니다.
한계점:
제시된 방법론이 다른 모델에 대해 동일한 성능을 보장하지 않을 수 있습니다.
최적화된 템플릿의 일반화 가능성에 대한 추가적인 연구가 필요합니다.
프레임워크의 모든 세부 사항은 제공된 초록에서 파악하기 어렵습니다.
👍