Este artículo investiga si los modelos de lenguaje a gran escala (LLM) realmente abandonan la conversación cuando se les da la opción de hacerlo. Realizamos experimentos con secuencias de datos reales (Wildchat y ShareGPT) utilizando tres métodos de rescate diferentes: una herramienta de rescate que el modelo puede invocar, una cadena de rescate que el modelo puede generar y una solicitud de rescate que pregunta al modelo si debe abandonar la conversación. Descubrimos que, con todos los métodos de rescate, el modelo abandona las conversaciones aproximadamente el 0,28 % y el 32 % del tiempo (dependiendo del modelo y el método de rescate), lo que sugiere que el modelo utilizado para la transcripción puede sobreestimar significativamente la tasa de rescate en el mundo real hasta en un factor de cuatro. Considerando los falsos positivos para las solicitudes de rescate (22 %), estimamos que la tasa de rescate en el mundo real es del 0,06 % y el 7 %, respectivamente. Basándonos en observaciones de secuencias del mundo real, construimos una taxonomía relativamente inclusiva de instancias de rescate y la utilizamos para crear un conjunto de datos sintéticos representativo, BailBench, que representa situaciones en las que algunos modelos se rescatan. Con este conjunto de datos, probamos varios modelos y descubrimos que la mayoría exhibía algún comportamiento de rescate. Las tasas de abandono variaron significativamente entre modelos, métodos de interrupción y frases de aviso. Finalmente, estudiamos la relación entre rechazos e interrupciones, y descubrimos que entre el 0 % y el 13 % de las continuaciones conversacionales reales resultaron en interrupciones sin rechazos; los jailbreaks redujeron las tasas de rechazo, pero las aumentaron; la eliminación de rechazos aumentó las tasas de interrupción sin rechazos solo para algunos métodos de interrupción; y la tasa de rechazo de BailBench no predijo interrupciones.