X - Teaming Evolutionary M2S 是一个通过基于语言模型的进化自动发现和优化多转单转 (M2S) 模板的框架。它从 12 个来源进行智能采样,并利用 LLM-as-judge 维护完整的审计日志,该机制的灵感源自 StrongREJECT。我们将成功阈值设置为 $\theta = 0.70$,经过五代进化获得了两个新的模板系列,在 GPT-4.1 上实现了 44.8% (103/230) 的总体成功率。此外,我们观察到不同模型的结构改进存在差异,并且提示长度与得分之间存在正相关关系。