Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ReviewInstruct : une méthode de génération de conversations multi-tours basée sur la révision pour les grands modèles linguistiques

Created by
  • Haebom

Auteur

Jiangxu Wu, Cong Wang, TianHuang Su, Jun Yang, Haozhi Lin, Chao Zhang, Ming Peng, Kai Shi, SongPan Yang, BinQing Pan, ZiXian Li, Ni Yang, ZhenYu Yang

Contour

Dans cet article, nous proposons Review-Instruct, un nouveau cadre qui surmonte les limites des données d'apprentissage supervisé à tour unique afin d'améliorer les performances de l'IA conversationnelle des modèles linguistiques à grande échelle (LLM). Review-Instruct génère des conversations à plusieurs tours en utilisant trois rôles d'agent : candidat, évaluateurs multiples et président, grâce à un processus itératif de « question-réponse-révision ». Il se caractérise par l'amélioration itérative des instructions grâce aux commentaires des évaluateurs afin d'accroître la diversité et la difficulté des conversations. En utilisant le jeu de données Alpaca pour construire un jeu de données à plusieurs tours et affiner le modèle LLaMA2-13B, nous obtenons des améliorations de performances significatives (amélioration absolue de 2,9 % dans MMLU-Pro et de 2 % dans MT-Bench) par rapport aux modèles de pointe existants sur MT-Bench, MMLU-Pro et Auto-Arena. Cela démontre l'importance de l'étape de révision et du recours à plusieurs évaluateurs.

Takeaways, Limitations

Takeaways:
Présentation d'un nouveau cadre efficace pour générer des données de conversation multi-sessions (Review-Instruct).
Nous présentons la possibilité de générer des données conversationnelles à grande échelle et de haute qualité grâce à un cadre multi-agents basé sur l'examen.
Démontrer expérimentalement l’importance de plusieurs examinateurs et étapes d’examen.
Améliore considérablement les performances des modèles basés sur LLaMA2-13B.
Limitations:
Des recherches supplémentaires sont nécessaires sur l’évolutivité et les performances de généralisation du cadre proposé.
Une vérification d'applicabilité pour différents domaines et langues est requise.
Il est nécessaire d’analyser l’impact de la subjectivité et des préjugés des évaluateurs sur les résultats.
Limites des méthodes de construction d’ensembles de données qui s’appuient sur l’ensemble de données Alpaca.
👍