X-Teaming Evolutionary M2S는 언어 모델 기반 진화를 통해 M2S(Multi-turn-to-single-turn) 템플릿을 자동적으로 발견하고 최적화하는 프레임워크입니다. 12개의 소스에서 스마트 샘플링을 수행하고, StrongREJECT에서 영감을 얻은 LLM-as-judge를 활용하여 완전한 감사 로그를 기록합니다. 성공 임계값 $\theta = 0.70$을 설정하여 5세대의 진화를 거쳐 두 개의 새로운 템플릿 패밀리를 얻었으며, GPT-4.1에서 44.8%의 전체 성공률(103/230)을 달성했습니다. 또한, 구조적 개선은 모델에 따라 차이가 있으며, 프롬프트 길이와 점수 사이에 긍정적인 상관관계가 있음을 확인했습니다.