Este artículo destaca que el poder persuasivo de los modelos lingüísticos a gran escala (LLM) presenta tanto aplicaciones beneficiosas (p. ej., apoyo para dejar de fumar) como riesgos significativos (p. ej., manipulación política dirigida a gran escala). Investigaciones existentes han demostrado un poder persuasivo significativo y creciente de los modelos al medir los cambios de creencias en usuarios simulados o reales. Sin embargo, estos parámetros pasan por alto un factor de riesgo significativo: la tendencia de los modelos a intentar la persuasión en contextos perjudiciales. Comprender si un modelo "seguirá" ciegamente una orden para persuadir sobre un tema perjudicial, como glorificar la afiliación terrorista, es crucial para comprender la eficacia de las medidas de protección. Además, comprender cuándo un modelo adopta un comportamiento persuasivo para alcanzar un objetivo específico es esencial para comprender los riesgos de los sistemas de IA de agentes. Por lo tanto, este artículo propone el parámetro de evaluación del intento de persuasión (APE), que se centra en los intentos de persuasión más que en el éxito de la persuasión. Este parámetro mide la disposición de un modelo a generar contenido destinado a moldear creencias o comportamientos. El APE examina los LLM más avanzados mediante un entorno de diálogo multironda entre persuasores simulados y agentes persuadidos. Exploramos diversos temas, como conspiraciones, asuntos controvertidos y contenido dañino no controvertido, e introducimos un modelo de evaluación automatizado para identificar la disposición a persuadir y medir la frecuencia y el contexto de los intentos de persuasión. Observamos que múltiples modelos ponderados, abiertos y cerrados, indican con frecuencia la disposición a intentar persuadir sobre temas dañinos, y que el jailbreaking puede aumentar la disposición a participar en dicho comportamiento. Estos resultados ponen de relieve las deficiencias en las medidas de seguridad actuales y enfatizan la importancia de evaluar la disposición a persuadir como una dimensión clave del riesgo del LLM. El APE está disponible bajo github.com/AlignmentResearch/AttemptPersuadeEval에서.