Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article propose une méthode visant à améliorer les performances des modèles linguistiques à grande échelle grâce à l'alignement au temps d'inférence. Alors que l'échantillonnage Best-of-N (BoN) conventionnel entraîne des coûts de calcul élevés, le TreeBoN proposé intègre une stratégie de recherche arborescente prédictive pour réduire les coûts de calcul tout en maintenant une qualité de sortie élevée. TreeBoN utilise des récompenses au niveau des jetons issues de l'optimisation directe des préférences (DPO) pour guider l'expansion de l'arbre et éliminer les chemins de mauvaise qualité. Les résultats d'évaluation utilisant les jeux de données AlpacaFarm, HH-RLHF, UltraFeedback, GSM8K et TutorEval démontrent que TreeBoN surpasse le BoN conventionnel, atteignant un taux de réussite de 65 % sur le jeu de données TutorEval.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons TreeBoN, un nouveau framework efficace pour le tri au moment de l'inférence.
◦
Il maintient une qualité de sortie élevée tout en réduisant les coûts de calcul par rapport au BoN conventionnel.
◦
Il fonctionne bien sur divers ensembles de données, atteignant un taux de réussite élevé de 65 % dans TutorEval.
◦
Guidez efficacement la traversée des arbres à l'aide de DPO.
•
Limitations:
◦
Les améliorations de performances de TreeBoN peuvent être limitées à des ensembles de données et modèles spécifiques. Des expérimentations avec un éventail plus large de modèles et d'ensembles de données sont nécessaires.
◦
ÉTant donné que certaines pièces dépendent du DPO, les performances de TreeBoN peuvent être affectées par la qualité du DPO.
◦
En raison de la complexité des stratégies de recherche d'arbres, les coûts de calcul peuvent encore être élevés dans certaines situations. Des recherches supplémentaires sont nécessaires pour déterminer les paramètres optimaux de recherche d'arbres.