Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

Created by
  • Haebom

作者

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

概要

この論文は、大規模言語モデル(LLM)の思考連鎖推論能力の向上における強化学習(RL)の役割を研究します。まず、マルチモーダルLLM(MLLM)では、RLトレーニング前にも「aha moment」パターン(自己修正による反省)が存在しますが、これが推論性能の向上と相関関係がない可能性があることを示しています。これを基に、構造化思考連鎖推論パターンを用いた地図学習微調整(SFT)とGRPOを用いた強化学習を組み合わせた2段階アプローチを提示します。実験の結果、このアプローチは、さまざまなマルチモーダル推論ベンチマークで、SFT専用およびRL専用の方法よりも優れた性能を示すことを確認しました。 3Bモデルと7Bモデルの両方でオープンソースMLLMの中で最先端のパフォーマンスを達成しました。この研究は、高度なマルチモーダル推論モデルを構築するための実践的なガイダンスを提供し、コードはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
マルチモーダルLLMの思考連鎖推論を改善するための効果的な2段階アプローチ(SFT + RL)の提示。
SFTとRLを組み合わせてオープンソースMLLMで最先端の性能を実現
'Aha moment'パターンが常に推論性能の向上と直接接続されていないことを明らかにしました。
3Bモデルと7Bモデルの両方でパフォーマンスの向上を示すことで、モデルサイズのスケーラビリティを示します。
Limitations:
本研究で提示されたアプローチの一般化性能に関するさらなる研究が必要である。
さまざまなマルチモーダルデータセットの実験が必要です。
'Aha moment'パターンと推論性能との関係のより深い分析の必要性。
👍