Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

Created by
  • Haebom

作者

Song Lai, Haohan Zhao, Rong Feng, Changyi Ma, Wenzhuo Liu, Hongbo Zhao, Xi Lin, Dong Yi, Min Xie, Qingfu Zhang, Hongbin Liu, Gaofeng Meng, Fei Zhu

概要

本論文は、マルチモーダル大規模言語モデル(Multimodal large language models)の継続的な後続学習(Continual Post-Training、CPT)において、指導学習(Supervised Fine-tuning、SFT)と強化学習(Reinforcement Fine-tuning、RFT)の2つのコア学習パラダイムの2つのコア学習パラダイムです。 Qwen2.5-VL-7B-Instructモデルに基づいて7つの多様なマルチモーダルタスクベンチマークを使用して実験した結果、SFTは以前に学習されたタスクに関する知識を急激に忘れ、RFTは以前の知識を維持し、一般的な知識も向上させることが分かった。 RFTの安定性は、KL penaltyやchain-of-thought reasoningなどの明示的なメカニズムではなく、補償分散によって自然に調整されるデータ依存正規化メカニズムによるものです。さらに、RFTの安定性と効率を向上させるためのロールアウトベースのインスタンスフィルタリングアルゴリズムを提案します。

Takeaways、Limitations

Takeaways:
継続的な後続の学習では、RFTはSFTよりも強力で信頼性の高いパラダイムです。
RFTは以前の知識を維持し、一般的なモデル能力を向上させます。
RFTの安定性は、データ依存正規化メカニズムに起因する。
ロールアウトベースのインスタンスフィルタリングアルゴリズムにより、RFTのパフォーマンスをさらに向上させることができます。
Limitations:
具体的なLimitationsは論文に記載されていません。
👍