[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TD-EVAL : Revisiter l'évaluation du dialogue orientée vers la tâche en combinant la précision au niveau du tour avec les comparaisons au niveau du dialogue

Created by
  • Haebom

Auteur

Emre Can Acikgoz, Carl Guo, Suvodip Dey, Akul Datta, Takyoung Kim, Gokhan Tur, Dilek Hakkani- Tur

Contour

Cet article aborde les limites de la méthodologie actuelle d'évaluation des systèmes de dialogue orienté tâches (TOD) basée sur un modèle de langage à grande échelle (LLM) et propose TD-EVAL, un nouveau cadre d'évaluation qui évalue à la fois les niveaux de tour et de conversation. TD-EVAL évalue trois dimensions au niveau du tour : la cohésion de la conversation, la cohérence des connaissances du backend et la conformité aux politiques. Il utilise TOD Agent Arena pour mesurer la qualité de la conversation par des comparaisons par paires au niveau de la conversation. Les résultats expérimentaux obtenus avec les jeux de données MultiWOZ 2.4 et τ-Bench montrent que TD-EVAL identifie efficacement les erreurs de conversation que les métriques existantes ne détectent pas et atteint une meilleure concordance avec le jugement humain. Par conséquent, TD-EVAL présente un nouveau paradigme pour l'évaluation future des systèmes TOD.

Takeaways, Limitations

Takeaways:
Présentation d'un nouveau cadre d'évaluation du système TOD (TD-EVAL) qui surmonte les limites des indicateurs d'évaluation automatique existants
Intègre l'analyse au niveau de la rotation et au niveau de la conversation pour permettre des évaluations plus sophistiquées
Amélioration de la fiabilité de l'évaluation grâce à une forte concordance avec le jugement humain
Conception plug-and-play pour une application facile dans les recherches futures
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si les trois dimensions d’évaluation au niveau de la rotation de TD-EVAL (cohésion conversationnelle, cohérence des connaissances backend et conformité aux politiques) sont applicables à tous les systèmes TOD.
Une validation supplémentaire de l'efficacité et de l'évolutivité de la méthode de comparaison par paires de TOD Agent Arena est nécessaire.
ÉTant donné qu’il s’agit d’un résultat d’évaluation des performances pour un ensemble de données spécifique, il est nécessaire de vérifier la généralisabilité à d’autres ensembles de données ou à divers systèmes TOD.
👍