Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CoT-Self-Instruct : Créer des invites synthétiques de haute qualité pour les tâches de raisonnement et de non-raisonnement

Created by
  • Haebom

Auteur

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu

Contour

Cet article propose CoT-Self-Instruct, une méthode de génération de données synthétiques de haute qualité pour les modèles de langage à grande échelle (LLM). Basé sur une tâche initiale, CoT-Self-Instruct infère et planifie d'abord le LLM via la chaîne de pensée (CoT), puis génère de nouvelles données synthétiques de qualité et de complexité similaires. Cette étape est suivie d'une étape de filtrage qui sélectionne les données de haute qualité à l'aide de mesures d'évaluation automatique, et les données sélectionnées sont utilisées pour l'entraînement des LLM. Les résultats expérimentaux montrent que CoT-Self-Instruct surpasse les jeux de données d'entraînement existants (s1k, OpenMathReasoning) sur les tâches de raisonnement vérifiables (MATH500, AMC23, AIME24, GPQA-Diamond) ainsi que les données générées par l'homme et les données d'entraînement d'auto-instruction standard sur les tâches de suivi d'instructions non vérifiables (AlpacaEval 2.0, Arena-Hard).

Takeaways, Limitations

Takeaways:
CoT-Self-Instruct peut contribuer à améliorer les performances du LLM en générant des données synthétiques de meilleure qualité que les ensembles de données existants.
Il montre d'excellentes performances à la fois sur les tâches d'inférence vérifiables et sur les tâches d'instructions invérifiables.
Nous présentons une méthode permettant de sélectionner efficacement des données de haute qualité à l’aide de mesures d’évaluation automatisées.
Limitations:
Une validation supplémentaire des performances de généralisation et de la fiabilité de la métrique d’évaluation automatique proposée est nécessaire.
Il y a un manque d’analyse du biais et de la sécurité des données synthétiques générées.
ÉTant donné que les performances ont été évaluées uniquement pour un type spécifique de tâche, il est nécessaire d’examiner la généralisation des performances à d’autres types de tâches.
👍