Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article présente deux nouveaux jeux de données (SwallowCode et SwallowMath) sous licence libre visant à améliorer la synthèse de programmes et les performances de raisonnement mathématique des modèles de langage à grande échelle (LLM). SwallowCode améliore les extraits de code Python de The-Stack-v2 grâce à un pipeline en quatre étapes (vérification syntaxique, filtrage de style et réécriture de LLM) pour produire un jeu de données de haute qualité de 16,1 milliards de jetons. SwallowMath améliore le jeu de données Finemath-4+ pour produire un jeu de données de 2,3 milliards de jetons, en supprimant les parties redondantes, en restaurant le contexte et en reconstruisant le processus de résolution de manière concise. Nous entraînons ensuite le modèle Llama-3.1-8B avec SwallowCode et SwallowMath, et démontrons des améliorations significatives de performances sur les benchmarks HumanEval, HumanEval+, GSM8K et MATH. Nous menons également des expériences pour analyser les contributions de chaque étape du pipeline. Tous les ensembles de données, invites et points de contrôle sont accessibles au public pour soutenir une recherche reproductible.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons une nouvelle méthode pour générer des ensembles de données qui contribuent à améliorer les performances du LLM en améliorant les données de faible qualité.
◦
Nous démontrons expérimentalement qu'il améliore considérablement les performances du LLM en synthèse de programmes et en raisonnement mathématique en utilisant les ensembles de données SwallowCode et SwallowMath.
◦
Contribuer à l’avancement de la recherche reproductible et de la préformation en spécialisation LLM grâce à des ensembles de données, des invites et des points de contrôle accessibles au public.
◦
Présentation d'une stratégie efficace de nettoyage des données grâce à une analyse des contributions de chaque étape du pipeline de création d'ensembles de données.
•
Limitations:
◦
Il se concentre sur un langage de programmation spécifique (Python) et sur la résolution de problèmes mathématiques. Des recherches supplémentaires sont donc nécessaires sur sa généralisabilité à d'autres domaines.
◦
Tenez compte de la complexité et du coût de calcul du processus de création de l’ensemble de données.
◦
Un examen supplémentaire est nécessaire pour identifier les biais et les erreurs potentiels qui peuvent survenir au cours du processus de réécriture du LLM.