ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning
Created by
Haebom
作者
Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu
概要
本論文は、大規模言語モデル(LLM)の課題特化指示語微調整のためのデータ選択問題に焦点を当てています。従来の方法は、主に作成された類似性尺度に依存してテストデータ分布に一致するトレーニングデータを選択することに焦点を当てていましたが、LLMのディレクティブ微調整損失(次のトークン予測のためのクロスエントロピー損失)は実際の課題性能と単調な関係を示さないことを指摘しています。この矛盾を解決するために、本論文は、双方向の嗜好損失を補償信号として活用して、課題特化指示子微調整のためのデータ選択を最適化する新しい方法であるROSE(Reward-Oriented inStruction data sElection)を提示します。 ROSE は、いくつかのアフィニティ検証セットに対するトレーニングデータポイントの影響を近似するために、影響式を適用して、課題に最も関連するトレーニングデータポイントを選択します。実験の結果、ROSEを使用してトレーニングデータの5%だけを選択しても、トレーニングデータセット全体に微調整することと比較して競争力のある結果が得られ、既存の最先端のデータ選択方法を上回ることを示しています。定性的分析により、複数のベンチマークデータセットとさまざまなモデルアーキテクチャにおける方法の堅牢な一般化の可能性を確認しました。