Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning

Created by
  • Haebom

作者

Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu

概要

本論文は、大規模言語モデル(LLM)の課題特化指示語微調整のためのデータ選択問題に焦点を当てています。従来の方法は、主に作成された類似性尺度に依存してテストデータ分布に一致するトレーニングデータを選択することに焦点を当てていましたが、LLMのディレクティブ微調整損失(次のトークン予測のためのクロスエントロピー損失)は実際の課題性能と単調な関係を示さないことを指摘しています。この矛盾を解決するために、本論文は、双方向の嗜好損失を補償信号として活用して、課題特化指示子微調整のためのデータ選択を最適化する新しい方法であるROSE(Reward-Oriented inStruction data sElection)を提示します。 ROSE は、いくつかのアフィニティ検証セットに対するトレーニングデータポイントの影響を近似するために、影響式を適用して、課題に最も関連するトレーニングデータポイントを選択します。実験の結果、ROSEを使用してトレーニングデータの5%だけを選択しても、トレーニングデータセット全体に微調整することと比較して競争力のある結果が得られ、既存の最先端のデータ選択方法を上回ることを示しています。定性的分析により、複数のベンチマークデータセットとさまざまなモデルアーキテクチャにおける方法の堅牢な一般化の可能性を確認しました。

Takeaways、Limitations

Takeaways:
課題特化ディレクティブ微調整のための効率的なデータ選択方法であるROSE提示。
既存の方法のLimitationsであるディレクティブの微調整損失と実際の課題パフォーマンスとの間の不一致のトラブルシューティング。
少量のデータだけでも、全データセットを使用した微調整と同様の性能達成。
さまざまなデータセットとモデルアーキテクチャで堅牢なパフォーマンスを実証。
Limitations:
ROSEのパフォーマンスは、好みの検証セットの品質に依存する可能性があります。
特定の課題またはモデルアーキテクチャの一般化性能をより幅広く検証する必要があります。
インタラクティブな嗜好損失を補償信号として使用することが常に最適かどうかに関するさらなる研究が必要である。
👍