Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Created by
  • Haebom

作者

Tong Xiao, Xin Xu, Zhenya Huang, Hongyu Gao, Quan Liu, Qi Liu, Enhong Chen

概要

この論文は、マルチモーダル大規模言語モデル(MLLM)のマルチモーダル推論能力の向上に焦点を当てています。既存の研究は強化学習と検証可能な報酬(RLVR)を使用してMLLMの推論能力を向上させようとしましたが、マルチモーダル知覚能力の向上を見落としたことを指摘しています。 McNemar's testは、既存のRLVR法がMLLMのマルチモーダル知覚能力の向上に効果的ではないことを明らかにし、それを解決するために新しい視覚的知覚補償を導入したPerception-R1を提案します。 Perception-R1は、マルチモーダル問題のCoT(Chain of Thought)経路で収集された視覚的注釈に基づいて、判断LLMを用いてMLLMの応答との一貫性を評価し、補償を与えます。複数のマルチモーダル推論ベンチマークでの実験結果は、Perception-R1が1,442のトレーニングデータだけで最先端のパフォーマンスを達成することを示しています。

Takeaways、Limitations

Takeaways:
MLLMのマルチモーダル推論能力を向上させるためには,マルチモーダル知覚能力の向上が必須であることを強調する。
Perception-R1は、限られたデータでも効果的なパフォーマンス向上を実現し、データ効率を示します。
CoT経路を利用した視覚的注釈の収集と判断LLMを用いた報酬付与方式は、今後の研究に対する新たな方向性を提示する。
Limitations:
現在提案されている方法の一般化性能のさらなる検証が必要です。
使用された判断LLMのパフォーマンスがPerception-R1のパフォーマンスに影響を与える可能性があります。
さまざまな種類のマルチモーダルデータへの適用性をさらに検討する必要があります。
👍