Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Des exemples concrets suffisent : optimiser les budgets d'annotation post-formation GRPO

Created by
  • Haebom

Auteur

Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye

Contour

Cet article aborde le défi de la sécurisation de données d'entraînement de haute qualité pour l'affinage des modèles linguistiques. Plus précisément, nous étudions expérimentalement comment prioriser des données de différents niveaux de difficulté (facile, moyen, difficile et aléatoire) sous contraintes budgétaires, en utilisant l'optimisation par politique relative de groupe (GRPO) sur des tailles et types de modèles variés. À l'aide d'estimations de difficulté obtenues à partir d'évaluations multi-échantillons du modèle de base, nous comparons et analysons quatre politiques de sélection de sous-ensembles sélectionnées dans le même pool de données non étiquetées. Les résultats expérimentaux montrent que l'apprentissage avec les exemples les plus difficiles génère jusqu'à 47 %, tandis que les exemples faciles génèrent les gains de performance les plus faibles. Cela est probablement dû au fait que les exemples difficiles offrent davantage d'opportunités d'apprentissage lors de l'apprentissage GRPO. En conclusion, nous fournissons des conseils pratiques sur la façon dont la priorisation des exemples difficiles dans les tâches d'inférence à budget limité à l'aide de GRPO peut améliorer significativement les performances.

Takeaways, Limitations

Takeaways : Une stratégie de sélection de données pour affiner les modèles linguistiques avec un budget limité révèle que prioriser les exemples difficiles est le moyen le plus efficace d'améliorer les performances. Cet effet est encore plus prononcé avec la technique GRPO. Cela fournit des indications précieuses pour établir des stratégies d'acquisition de données dans des applications pratiques.
Limitations : Cette étude se limite à la technique GRPO. Des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d'autres techniques de réglage fin. Les limites de la méthode de mesure de la difficulté et sa généralisabilité à divers ensembles de données et tâches nécessitent une vérification. Étant donné que les résultats sont basés sur un modèle et une tâche spécifiques, la généralisation à d'autres modèles et tâches pourrait être limitée.
👍