Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning

Created by
  • Haebom

作者

Haibo Qiu, Xiaohan Lan, Fanfan Liu, Xiaohu Sun, Delian Ruan, Peng Shi, Lin Ma

概要

本論文では、マルチモーダル大規模言語モデル(MLLM)の推論能力を向上させるための新しい学習方法であるMetis-RISEを提案します。 Metis-RISEは、既存の強化学習(RL)ベースの方法のサンプルの非効率性と推論能力の欠如の問題、および監督可能な微調整(SFT)後のRLを使用したパイプライン方式の探索能力の制限と最適化されていない収束問題を解決するために、RL段階で始まり、モデルの潜在的な推論能力を活性化します。その後、RL段階で発見された非効率的な軌跡サンプリング問題は自己蒸留推論軌跡を使用し、推論能力不在の問題は専門家の知識を注入することによって解決されます。 7Bおよび72Bパラメータの2つのバージョンのMLLMを開発し、OpenCompass Multimodal Reasoning Leaderboardで最先端のパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
RLを最初に利用してモデルの潜在的推論能力を効果的に活性化する新しいアプローチの提示
RL段階で発生する問題(非効率的な軌跡サンプリングおよび推論能力の欠如)を効果的に解決する戦略を提示します。
自己蒸留と専門家の知識注入によるSFT段階の効率を改善
OpenCompass Multimodal Reasoning Leaderboardで優れた性能を達成し、Metis-RISEの効果を実証
Limitations:
72Bモデルは全体のランキングで4位を占めたが、上位モデルとの性能差のさらなる分析が必要。
提案された方法の一般化性能と様々な課題への適用性に関するさらなる研究が必要である。
専門家の知識注入の客観的な評価基準と信頼性の確保のための必要性。
👍