Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Zeroth-Order Fine-Tuning of LLMs in Random Subspaces

Created by
  • Haebom

作者

Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Mi Tian, Hua Huang

概要

この論文では、大規模言語モデル(LLM)の微調整のためのメモリ効率的な最適化方法であるSubZeroを提案します。従来のゼロスオーダ最適化法は、勾配推定の分散がモデルの次元によって線形的に増加するという問題を抱えており、SubZeroは低次元摂動を利用してこの問題を解決します。 SubZeroは、メモリ消費量を削減しながらトレーニングパフォーマンスを向上させ、従来のゼロ最適化方法よりも速い収束速度を示します。実験結果を通じて、様々な言語モデリング作業でSubZeroの卓越性を検証し、ソースコードを公開しました。

Takeaways、Limitations

Takeaways:
大規模言語モデル微調整のためのメモリ効率の良い新しい最適化手法の提示
既存のゼロ最適化法のLimitationsである高勾配推定分散問題の解決
向上したトレーニング性能と高速収束速度を実現
実際の言語モデリング作業における効果検証とソースコードの開示
Limitations:
提示された方法の一般的なLLM構造およびサイズ以外の他の構造またはサイズの一般化の可能性に関するさらなる研究が必要
さまざまなハイパーパラメータのチューニングと最適化に関するさらなる研究が必要
実験結果は特定のデータセットと操作に限定される可能性があるため、より広範な実験が必要です。
👍