Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
TD-EVAL : Revisiter l'évaluation du dialogue orientée vers la tâche en combinant la précision au niveau du tour avec les comparaisons au niveau du dialogue
Created by
Haebom
Auteur
Emre Can Acikgoz, Carl Guo, Suvodip Dey, Akul Datta, Takyoung Kim, Gokhan Tur, Dilek Hakkani- Tur
Contour
Cet article aborde les limites de la méthodologie actuelle d'évaluation des systèmes de dialogue orienté tâches (TOD) basée sur un modèle de langage à grande échelle (LLM) et propose TD-EVAL, un nouveau cadre d'évaluation qui évalue à la fois les niveaux de tour et de conversation. TD-EVAL évalue trois dimensions au niveau du tour : la cohésion de la conversation, la cohérence des connaissances du backend et la conformité aux politiques. Il utilise TOD Agent Arena pour mesurer la qualité de la conversation par des comparaisons par paires au niveau de la conversation. Les résultats expérimentaux obtenus avec les jeux de données MultiWOZ 2.4 et τ-Bench montrent que TD-EVAL identifie efficacement les erreurs de conversation que les métriques existantes ne détectent pas et atteint une meilleure concordance avec le jugement humain. Par conséquent, TD-EVAL présente un nouveau paradigme pour l'évaluation future des systèmes TOD.
Takeaways, Limitations
•
Takeaways:
◦
Présentation d'un nouveau cadre d'évaluation du système TOD (TD-EVAL) qui surmonte les limites des indicateurs d'évaluation automatique existants
◦
Intègre l'analyse au niveau de la rotation et au niveau de la conversation pour permettre des évaluations plus sophistiquées
◦
Amélioration de la fiabilité de l'évaluation grâce à une forte concordance avec le jugement humain
◦
Conception plug-and-play pour une application facile dans les recherches futures
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires pour déterminer si les trois dimensions d’évaluation au niveau de la rotation de TD-EVAL (cohésion conversationnelle, cohérence des connaissances backend et conformité aux politiques) sont applicables à tous les systèmes TOD.
◦
Une validation supplémentaire de l'efficacité et de l'évolutivité de la méthode de comparaison par paires de TOD Agent Arena est nécessaire.
◦
ÉTant donné qu’il s’agit d’un résultat d’évaluation des performances pour un ensemble de données spécifique, il est nécessaire de vérifier la généralisabilité à d’autres ensembles de données ou à divers systèmes TOD.