Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
InfiAlign : un cadre évolutif et efficace en termes d'échantillons pour aligner les LLM afin d'améliorer les capacités de raisonnement
Created by
Haebom
Auteur
Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
Contour
Cet article présente InfiAlign, un framework post-apprentissage efficace pour améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). InfiAlign aligne les LLM en combinant le réglage fin supervisé (SFT) et l'optimisation par affinité directe (DPO). Son cœur de métier est un pipeline de sélection de données robuste qui sélectionne automatiquement des données d'alignement de haute qualité à partir d'ensembles de données d'inférence open source à l'aide de mesures de qualité multidimensionnelles. En l'appliquant au modèle Qwen2.5-Math-7B-Base, nous démontrons qu'il atteint des performances comparables à celles des modèles existants en utilisant seulement environ 12 % des données d'origine, démontrant une forte généralisation à diverses tâches d'inférence. Plus précisément, l'application de DPO permet une amélioration moyenne des performances de 3,89 % sur les tâches d'inférence mathématique. En combinant la sélection de données raisonnée au pré-apprentissage, InfiAlign offre une solution pratique pour aligner les modèles d'inférence à grande échelle de manière évolutive et économe en données. Les points de contrôle des modèles sont disponibles à https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT .