Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Neural Networks for Learnable and Scalable Influence Estimation of Instruction Fine-Tuning Data

Created by
  • Haebom

作者

石川アガルウォール、ディレックハッカニ-T ur

概要

この論文では、言語モデルのデータ影響度を効率的に計算するための新しい方法であるNewal Networks for effiCient Instruction Fine-Tuning(NN-CIFT)を提案します。従来のデータ影響度の計算方法は、大規模なモデルやデータセットに適用するのが困難な高い計算コストと制限的な一般化性能を持っています。 NN-CIFTは、小さなニューラルネットワーク(InfluenceNetwork)を使用してデータの影響度を推定することで、従来の方法に対して最大99%のコスト削減を達成します。 7Bおよび8Bサイズの言語モデルを使用した実験の結果、全モデルサイズの0.0027%に過ぎない小さなモデルでもデータの影響度を正確に推定できることがわかりました。また、一般的なインストゥルメント fine-tuning のサブセットセレクション操作に NN-CIFT を適用し、性能劣化なしに速度向上を達成し、NN-CIFT のハイパーパラメータ分析結果も提示します。ソースコードはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
大規模言語モデルにおけるデータ影響度を効率的に計算する新しい方法を提示する。
従来の方法に対して99%までコストを削減しながら、パフォーマンスを低下させることなくデータの影響度を推定できます。
Instruction fine-tuningのためのサブセット選択操作に効果的に適用可能であることを示しました。
小さなモデルを使用すると、計算コストとメモリ要件を大幅に削減できます。
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要になるかもしれません。
特定の言語モデルとデータセットの実験結果であるため、他のモデルとデータセットの一般化パフォーマンスを検証する必要があります。
InfluenceNetworkの構造とハイパーパラメータの最適化に関する追加の研究が必要になる場合があります。
👍