Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Des intentions aux conversations : générer des dialogues axés sur l'intention grâce à l'apprentissage contrastif pour la classification multi-tours

Created by
  • Haebom

Auteur

Junhua Liu, Yong Keat Tan, Bin Fu, Kwan Hui Lim

Contour

Afin de relever les défis liés à la génération d'ensembles de données de conversations multilingues à grande échelle et spécifiques à un domaine, cet article présente Chain-of-Intent, un nouveau cadre intégrateur de modèles de Markov cachés (HMM) et de modèles linguistiques à grande échelle (LLM). Chain-of-Intent extrait les schémas de transition d'intention spécifiques à un domaine à partir de journaux de chat e-commerce réels et les exploite pour modéliser la dynamique tour par tour et les séquences d'intention. Il paramétre ensuite les probabilités d'émission des HMM à l'aide de LLM afin de générer des énoncés naturels et cohérents, conformes à l'intention prédite et au contexte de conversation. De plus, nous proposons MINT-CL, un cadre d'apprentissage contrastif multitâche qui améliore les performances tout en réduisant la dépendance à de grands ensembles de données annotées. Les résultats expérimentaux démontrent que la méthode proposée surpasse les modèles de référence concurrents en termes de qualité de génération de dialogues et de précision de classification, notamment dans les environnements multilingues. Enfin, nous publions MINT-E, un corpus complet de conversations multilingues à plusieurs tours, sensible à l'intention et issu du domaine e-commerce, pour de futures recherches.

Takeaways, Limitations

Takeaways:
Combinaison de HMM et de LLM pour résoudre le problème de la génération d'ensembles de données à grande échelle pour la formation de modèles de classification d'intention multilingues et multi-passes efficaces.
Réduire la dépendance aux grands ensembles de données annotées et améliorer les performances avec MINT-CL.
Encourager les recherches futures grâce à la publication du corpus de conversations multilingues et multisessions MINT-E.
Cela suggère une applicabilité à divers domaines au-delà du commerce électronique.
Limitations:
En raison de la forte dépendance aux journaux de discussion de commerce électronique réels, les performances peuvent être affectées par la qualité des données du journal.
Cela dépend des performances de LLM, et les limitations de LLM peuvent affecter les performances de Chain-of-Intent.
Un examen plus approfondi de la taille et de la diversité de l’ensemble de données MINT-E est nécessaire.
D’autres expériences sont nécessaires pour déterminer les performances de généralisation à d’autres domaines.
👍