Cet article examine si les modèles linguistiques à grande échelle (MLH) abandonnent effectivement leurs conversations lorsqu'ils en ont la possibilité. Nous avons mené des expériences sur des séquences issues de données réelles (Wildchat et ShareGPT) en utilisant trois méthodes d'abandon différentes : un outil d'abandon que le modèle peut invoquer, une chaîne d'abandon que le modèle peut générer et une invite d'abandon demandant au modèle s'il souhaite abandonner ses conversations. Nous avons constaté que, toutes méthodes confondues, le modèle abandonne les conversations dans environ 0,28 % et 32 % des cas (selon le modèle et la méthode d'abandon utilisée), ce qui suggère que le modèle utilisé pour la transcription peut surestimer considérablement le taux d'abandon dans le monde réel, jusqu'à un facteur quatre. En tenant compte des faux positifs pour les invites d'abandon (22 %), nous estimons le taux d'abandon dans le monde réel à 0,06 % et 7 %, respectivement. À partir d'observations de séquences réelles, nous avons construit une taxonomie relativement exhaustive des cas de sauvetage et l'avons utilisée pour créer un ensemble de données synthétiques représentatif, BailBench, qui représente les situations dans lesquelles certains modèles abandonnent. À l'aide de cet ensemble de données, nous avons testé différents modèles et constaté que la plupart présentaient un comportement de sauvetage. Les taux d'abandon variaient significativement selon les modèles, les méthodes d'interruption et les phrases d'invite. Enfin, nous avons étudié la relation entre rejets et interruptions, et constaté que 0 à 13 % des continuations conversationnelles réelles entraînaient des interruptions sans rejet ; les jailbreaks diminuaient les taux de rejet mais augmentaient les interruptions ; la suppression des rejets augmentait les taux d'interruption sans rejet uniquement pour certaines méthodes d'interruption ; et le taux de rejet de BailBench ne prédisait pas les interruptions.