Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Skywork-Reward-V2 : Adaptation de la conservation des données de préférences grâce à la synergie homme-IA

Created by
  • Haebom

Auteur

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou

Contour

Cet article aborde le problème suivant : malgré l'importance du modèle de récompense (MR) dans l'apprentissage par renforcement à partir du feedback humain (RLHF), les MR ouverts de pointe existants sont moins performants dans la plupart des benchmarks d'évaluation. Nous supposons que cela est dû aux limites des ensembles de données de préférences existants, telles qu'une portée limitée, des données étiquetées artificiellement et un manque de contrôle qualité rigoureux. Pour y remédier, nous présentons SynPref-40M, un ensemble de données de préférences à grande échelle composé de 40 millions de paires de préférences. Nous procédons à la curation des données en concevant un pipeline en deux étapes qui allie la qualité des annotations humaines à l'évolutivité de l'IA. Ainsi, les humains fournissent des annotations vérifiées, et les modèles linguistiques à grande échelle effectuent la curation automatique sous la direction humaine. À partir de 26 millions de paires de préférences issues de SynPref-40M, nous développons Skywork-Reward-V2, qui comprend huit modèles de récompense avec des paramètres allant de 0,6 B à 8 B. Skywork-Reward-V2 atteint des performances de pointe sur un large éventail de caractéristiques, notamment l'alignement des préférences humaines, la précision des cibles, la sécurité, la résistance aux biais de style et la mise à l'échelle N optimale. Les résultats expérimentaux montrent que l'efficacité de cette étude est due non seulement à la taille des données, mais aussi à une curation de haute qualité. Skywork-Reward-V2 représente une avancée significative dans le domaine des modèles de récompense ouverts et démontre que la synergie entre l'humain et l'IA en matière de curation contribue à améliorer la qualité des données.

Takeaways, Limitations

Takeaways:
Nous construisons un ensemble de données de préférences à grande échelle et de haute qualité (SynPref-40M) et présentons un pipeline de conservation de données efficace basé sur la collaboration homme-IA.
Nous présentons le modèle Skywork-Reward-V2, qui surmonte les limitations de performance des modèles de récompense ouverts existants et atteint des performances de pointe dans divers benchmarks.
Nous démontrons expérimentalement que la taille et la qualité des données sont des facteurs importants pour améliorer les performances du modèle de récompense.
Démontrer l’utilité de la conservation des données grâce à la collaboration homme-IA.
Limitations:
Manque de description détaillée de la manière dont l'ensemble de données SynPref-40M est structuré et de la diversité des paires de préférences.
Une validation supplémentaire des performances de généralisation du modèle Skywork-Reward-V2 est nécessaire.
Surajustement potentiel à certains benchmarks.
Des recherches supplémentaires sont nécessaires sur l’évolutivité et la généralisabilité des pipelines collaboratifs homme-IA.
👍