この論文では、言語モデルのデータ影響度を効率的に計算するための新しい方法であるNewal Networks for effiCient Instruction Fine-Tuning(NN-CIFT)を提案します。従来のデータ影響度の計算方法は、大規模なモデルやデータセットに適用するのが困難な高い計算コストと制限的な一般化性能を持っています。 NN-CIFTは、小さなニューラルネットワーク(InfluenceNetwork)を使用してデータの影響度を推定することで、従来の方法に対して最大99%のコスト削減を達成します。 7Bおよび8Bサイズの言語モデルを使用した実験の結果、全モデルサイズの0.0027%に過ぎない小さなモデルでもデータの影響度を正確に推定できることがわかりました。また、一般的なインストゥルメント fine-tuning のサブセットセレクション操作に NN-CIFT を適用し、性能劣化なしに速度向上を達成し、NN-CIFT のハイパーパラメータ分析結果も提示します。ソースコードはGitHubで公開されています。