Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ProactiveEval : un cadre d'évaluation unifié pour les agents de dialogue proactif

작성자
  • Haebom

Auteur

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

Contour

Cet article propose ProactiveEval, un cadre unifié pour évaluer la capacité conversationnelle lexicale des modèles linguistiques à grande échelle (MLH). Afin de pallier les limites des études précédentes, qui se concentraient sur des domaines spécifiques ou des scénarios axés sur les tâches, limitant ainsi l'exploration exhaustive de la capacité conversationnelle lexicale des modèles, nous décomposons la conversation lexicale en deux aspects : la planification d'objectifs et l'orientation conversationnelle. Nous établissons des indicateurs d'évaluation pour plusieurs domaines. De plus, nous concevons ce cadre pour générer automatiquement des données d'évaluation diverses et complexes. Nous développons 328 environnements d'évaluation dans six domaines différents et expérimentons 22 LMH, démontrant que DeepSeek-R1 et Claude-3.7-Sonnet sont performants respectivement pour les tâches de planification d'objectifs et d'orientation conversationnelle. Enfin, nous étudions l'impact de la capacité de raisonnement sur le comportement lexical et discutons des implications pour le développement futur des modèles.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre intégré et systématique (ProactiveEval) pour évaluer les compétences en communication pré-test en LLM.
Des expériences approfondies sur divers domaines et LLM ont révélé des modèles (DeepSeek-R1, Claude-3.7-Sonnet) qui démontrent d'excellentes performances.
Clarifier la relation entre la capacité de raisonnement et la capacité conversationnelle préexistante et suggérer des orientations futures de développement de modèles.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre ProactiveEval.
Un examen plus approfondi de la diversité et de l’équilibre des données d’évaluation est nécessaire.
Il faut faire preuve de prudence dans l’interprétation des résultats qui sont biaisés en faveur de domaines spécifiques.
Des discussions plus approfondies sont nécessaires sur la définition et la mesure des compétences conversationnelles préexistantes.
👍