Cet article présente PersonaGym, un cadre d'évaluation dynamique, et PersonaScore, une mesure d'évaluation automatique basée sur la théorie de la décision. Il aborde le problème de l'évaluation du degré d'adhésion à un persona d'un agent persona (un agent LLM conditionné à agir selon un persona spécifique) dans un contexte libre où la cohérence doit être maintenue dans divers environnements. L'évaluation de dix LLM de premier plan, comportant 200 personas et 10 000 questions, révèle que la taille et la complexité du modèle ne sont pas nécessairement corrélées aux performances de l'agent persona, soulignant la nécessité d'innovations algorithmiques et architecturales pour des agents persona fidèles et performants. Par exemple, GPT-4.1 et LLaMA-3-8b ont obtenu des PersonaScores identiques.