Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Enseigner de grands modèles linguistiques pour maintenir la fidélité contextuelle via des tâches synthétiques et un apprentissage par renforcement

Created by
  • Haebom

Auteur

Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Contour

Cet article propose CANOE, un nouveau cadre de génération de réponses contextuelles afin d'améliorer la fiabilité des modèles linguistiques à grande échelle (MLH). CANOE synthétise diverses données de questions-réponses (QA) à court terme sans annotation humaine afin de générer des données d'apprentissage vérifiables et de haute qualité. De plus, nous proposons Dual-GRPO, une méthode d'apprentissage par renforcement basée sur des règles qui intègre trois récompenses basées sur des règles dérivées des données QA à court terme synthétisées afin d'optimiser simultanément la génération de réponses à court et à long terme. Dual-GRPO résout les problèmes d'étiquetage manuel pour l'apprentissage des modèles de récompense et de suroptimisation à court terme. Les résultats expérimentaux démontrent que CANOE améliore significativement la fidélité des LLM sur 11 tâches différentes, surpassant les LLM de pointe tels que GPT-4o et OpenAI o1.

Takeaways, Limitations_

Takeaways:
Nous présentons un cadre efficace (CANOE) pour améliorer la fidélité du LLM sans annotation humaine.
Optimisez efficacement la génération de réponses à court et à long terme à l’aide de l’apprentissage par renforcement basé sur des règles.
Des performances d'amélioration de la fidélité démontrées qui surpassent celles des LLM de pointe.
Démontre de la polyvalence dans diverses opérations en aval.
Limitations:
Dépendance à la qualité des données synthétiques. La variété et la qualité des données synthétiques peuvent affecter les performances de CANOE.
Généralisabilité des récompenses basées sur des règles. Des règles optimisées pour une tâche spécifique peuvent dégrader les performances lorsqu'elles sont appliquées à d'autres tâches.
ÉVolutivité de la méthode proposée. Son applicabilité à des ensembles de données plus volumineux et à des tâches complexes nécessite une vérification.
👍