Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

InfiAlign : un cadre évolutif et efficace en termes d'échantillons pour aligner les LLM afin d'améliorer les capacités de raisonnement

Created by
  • Haebom

Auteur

Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang

Contour

Cet article présente InfiAlign, un framework post-apprentissage efficace pour améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). InfiAlign aligne les LLM en combinant le réglage fin supervisé (SFT) et l'optimisation par affinité directe (DPO). Son cœur de métier est un pipeline de sélection de données robuste qui sélectionne automatiquement des données d'alignement de haute qualité à partir d'ensembles de données d'inférence open source à l'aide de mesures de qualité multidimensionnelles. En l'appliquant au modèle Qwen2.5-Math-7B-Base, nous démontrons qu'il atteint des performances comparables à celles des modèles existants en utilisant seulement environ 12 % des données d'origine, démontrant une forte généralisation à diverses tâches d'inférence. Plus précisément, l'application de DPO permet une amélioration moyenne des performances de 3,89 % sur les tâches d'inférence mathématique. En combinant la sélection de données raisonnée au pré-apprentissage, InfiAlign offre une solution pratique pour aligner les modèles d'inférence à grande échelle de manière évolutive et économe en données. Les points de contrôle des modèles sont disponibles à https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT .

Takeaways, Limitations

Takeaways:
Nous présentons InfiAlign, un nouveau cadre qui répond efficacement aux problèmes de données et de coûts de calcul des formations post-LLM existantes.
Optimisez l’efficacité des données et assurez l’évolutivité grâce à des pipelines de sélection de données automatisés.
Obtenir d’excellentes améliorations de performances dans diverses tâches d’inférence grâce à la combinaison de SFT et DPO.
Présentation d'une méthode d'alignement de modèles d'inférence à grande échelle, pratique et efficace en termes de données.
Augmentation de la reproductibilité et de la facilité d’utilisation de la recherche grâce à la divulgation publique des modèles appris.
Limitations:
Les améliorations des performances d'InfiAlign peuvent être limitées à des modèles spécifiques (Qwen2.5-Math-7B-Base) et à des ensembles de données.
Manque d’explication détaillée de la définition et de la définition des indicateurs de qualité multidimensionnels.
Une validation supplémentaire des performances de généralisation pour d’autres LLM et diverses tâches d’inférence est nécessaire.
Manque d’analyse des biais et des limites des pipelines de sélection de données.
👍