Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PersonaGym : Évaluation des agents Persona et des LLM

Created by
  • Haebom

Auteur

Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari

Contour

Cet article présente PersonaGym, un cadre d'évaluation dynamique, et PersonaScore, une mesure d'évaluation automatique basée sur la théorie de la décision. Il aborde le problème de l'évaluation du degré d'adhésion à un persona d'un agent persona (un agent LLM conditionné à agir selon un persona spécifique) dans un contexte libre où la cohérence doit être maintenue dans divers environnements. L'évaluation de dix LLM de premier plan, comportant 200 personas et 10 000 questions, révèle que la taille et la complexité du modèle ne sont pas nécessairement corrélées aux performances de l'agent persona, soulignant la nécessité d'innovations algorithmiques et architecturales pour des agents persona fidèles et performants. Par exemple, GPT-4.1 et LLaMA-3-8b ont obtenu des PersonaScores identiques.

Takeaways, Limitations_

Takeaways:
PersonaGym et PersonaScore fournissent de nouveaux cadres et mesures pour évaluer de manière exhaustive les performances des agents persona.
Nous démontrons que la taille et la complexité des modèles linguistiques à grande échelle ne garantissent pas la performance des agents persona, suggérant ainsi de futures orientations de recherche.
Cela suggère le potentiel de développement d’agents persona dans divers domaines tels que l’éducation et la santé.
Limitations:
Une validation supplémentaire de la méthode d’alignement humain de PersonaScore peut être nécessaire.
Le type et la portée des LLM utilisés dans l’évaluation peuvent être limités.
Des recherches supplémentaires pourraient être nécessaires pour répondre pleinement aux complexités de l’évaluation de la cohérence des personnalités dans des contextes de forme libre.
👍