Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Imbalanced Gradients in RL Post-Training of Multi-Task LLMs

Created by
  • Haebom

作者

Runzhe Wu, Ankur Samanta, Ayush Jain, Scott Fujimoto, Jeongyeol Kwon, Ben Kretzu, Youliang Yu, Kaveh Hassani, Boris Vidolov, Yonathan Efroni

概要

この論文は、大規模言語モデル(LLM)のマルチタスク後処理訓練で発生する問題を指摘しています。一般に、異なるタスクのデータセットを混合して共同最適化を実行します。これは、すべてのタスクが同様のサイズの勾配に寄与するという仮定を含みます。しかし、強化学習(RL)後処理訓練では、特定のタスクがはるかに大きな勾配を生成し、最適化がそのタスクに偏ることがあることがわかりました。この勾配の不均衡は、傾斜の大きいタスクがより大きな学習利得をもたらすときに正当化される可能性がありますが、実際にはそうではないことを確認しました。すなわち、傾きの大きいタスクが、傾きの小さいタスクと類似するか、またはより低い学習利得を得ることができるということである。この傾きの不均衡は、訓練補償や利点などの一般的な訓練統計では説明されておらず、タスク間の根本的な違いから生じることを示唆している。これはデータセットの無分別な混合に関する警告であり、LLMの勾配レベル補正に関する今後の研究の必要性を強調しています。

Takeaways、Limitations

Takeaways:
LLMのマルチタスク後処理訓練では、勾配の不均衡の問題を認識する必要があります。
単純なデータセット混合方式は、特定のタスクに偏った学習を引き起こす可能性があります。
勾配の大きさと学習利得との間の相関関係は必ずしも正比例しないことを考慮する必要があります。
勾配レベルの補正のためのさらなる研究が必要です。
Limitations:
RL後処理訓練に焦点を当てて研究が進められており、他の種類のマルチタスク学習の一般化は限られているかもしれません。
勾配不均衡の正確な原因のさらなる分析が必要です。
具体的な勾配補正方法論の提示が欠けている。
👍