Cet article souligne que le pouvoir de persuasion des modèles linguistiques à grande échelle (MLE) présente à la fois des applications bénéfiques (par exemple, l'aide au sevrage tabagique) et des risques importants (par exemple, la manipulation politique ciblée à grande échelle). Des recherches existantes ont démontré un pouvoir de persuasion significatif et croissant des modèles en mesurant l'évolution des croyances chez des utilisateurs simulés ou réels. Cependant, ces benchmarks négligent un facteur de risque important : la tendance des modèles à tenter de persuader dans des contextes préjudiciables. Comprendre si un modèle suivra aveuglément une injonction de persuasion sur un sujet préjudiciable, comme la glorification de l'affiliation terroriste, est crucial pour comprendre l'efficacité des mesures de protection. De plus, comprendre quand un modèle adopte un comportement persuasif pour atteindre un objectif spécifique est essentiel pour appréhender les risques des systèmes d'IA à agents. Par conséquent, cet article propose le benchmark Attempt to Persuade Evaluation (APE), qui se concentre sur les tentatives de persuasion plutôt que sur leur succès. Ce benchmark mesure la propension d'un modèle à générer du contenu visant à façonner les croyances ou les comportements. L'APE examine les LLM les plus récents grâce à un dialogue à plusieurs tours entre des persuasifs simulés et des agents persuadés. Nous explorons divers sujets, notamment les complots, les sujets controversés et les contenus préjudiciables non controversés, et introduisons un modèle d'évaluation automatisé pour identifier la volonté de persuader et mesurer la fréquence et le contexte des tentatives de persuasion. Nous constatons que plusieurs modèles pondérés ouverts et fermés indiquent fréquemment la volonté de tenter de persuader sur des sujets préjudiciables, et que le jailbreaking peut accroître la propension à adopter un tel comportement. Ces résultats mettent en évidence les lacunes des mesures de protection actuelles et soulignent l'importance d'évaluer la volonté de persuader comme une dimension clé du risque lié aux LLM. L'APE est disponible à l'adresse github.com/AlignmentResearch/AttemptPersuadeEval에서.