Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Created by
  • Haebom

作者

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou

概要

本論文は、人間のフィードバックからの強化学習(RLHF)における補償モデル(RM)の重要性にもかかわらず、既存の最先端のオープンRMがほとんどの評価ベンチマークでパフォーマンスの低下を示す問題を扱います。これは、限られた範囲、人工的にラベル付けされたデータ、厳格な品質管理の欠如など、既存の好みのデータセットの制限によるものと仮定します。これを解決するために、4000万の好みペアで構成される大規模な好みデータセットSynPref-40Mを提示します。人間の注釈品質とAIの拡張性を組み合わせた2段階パイプラインを設計し、データキュレーションを行う。これにより、人間は検証された注釈を提供し、大規模な言語モデルは人間の指示に従って自動キュレーションを実行します。 SynPref-40Mの2600万個の好みペアを使用して、0.6B〜8Bパラメータの8つの補償モデルで構成されたSkywork-Reward-V2を開発しました。 Skywork-Reward-V2は、人間の好みのアライメント、目標精度、安全性、スタイル偏向抵抗、最適Nスケーリングなど、幅広い機能で最先端のパフォーマンスを達成しました。実験の結果,本研究の効果はデータ規模だけでなく高品質キュレーションにも起因することを示した。 Skywork-Reward-V2は、オープン報酬モデルの分野で大きな進歩を示しており、人間-AIキュレーションシナジーがデータ品質の向上に貢献していることを示しています。

Takeaways、Limitations

Takeaways:
大規模な高品質アフィニティデータセット(SynPref-40M)を構築し、効果的なヒト-AIコラボレーションベースのデータキュレーションパイプラインを提示します。
既存のオープン報酬モデルの性能限界を克服し、様々なベンチマークで最先端の性能を達成したSkywork-Reward-V2モデル提示。
データ規模と品質の両方が補償モデルの性能向上に重要な要素であることを実験的に証明した。
ヒト‐AIコラボレーションによるデータキュレーションの有効性を提示
Limitations:
SynPref-40Mデータセットの構成方法と好みのペアの多様性の詳細な説明の欠如。
Skywork-Reward-V2モデルの一般化性能の追加検証が必要
特定のベンチマークに対する過適合性の可能性。
人間-AIコラボレーションパイプラインの拡張性と一般化の可能性に関するさらなる研究が必要です。
👍