Nous présentons un nouveau benchmark, DischargeSim, qui évalue la capacité des modèles linguistiques à grande échelle (MLH) à servir d'outils pédagogiques personnalisés à la sortie de l'hôpital après les consultations des patients. Ce benchmark simule des conversations post-visite à plusieurs tours entre des DoctorAgents et des PatientAgents basés sur des LH, présentant divers profils psychosociaux (par exemple, littératie en santé, éducation et intelligence émotionnelle). Les interactions sont structurées autour de six thèmes de sortie cliniquement pertinents et évaluées selon trois axes : la qualité de la conversation grâce à des évaluations automatisées et des LH en tant que juge ; la génération de documents personnalisés, comprenant des résumés en texte libre et des listes de contrôle AHRQ structurées ; et la compréhension du patient grâce à des tests à choix multiples en aval. Les résultats expérimentaux de 18 LH révèlent des variations significatives dans les performances de la formation à la sortie de l'hôpital, ces dernières variant significativement selon les profils de patients. Plus précisément, la taille du modèle ne conduit pas toujours à de meilleurs résultats pédagogiques, soulignant le compromis entre l'utilisation de stratégies et la priorisation du contenu. DischargeSim représente une première étape vers l'évaluation comparative des LH en matière de formation clinique post-visite et la promotion d'un accompagnement équitable et personnalisé des patients.