Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints

Created by
  • Haebom

作者

Sunil Kumar, Bowen Zhao, Leo Dirac, Paulina Varshavskaya

概要

本論文は、計算リソースが限られている状況でも視覚言語モデル(VLM)の詳細な視覚的推論能力を向上させる方法を提供する。 Deepseek-r1からインスピレーションを得て、Group Relative Policy Optimization(GRPO)を使用して小規模モデルを学習し、ズームなどの外部ツールを活用します。 GRPO学習、単純な補償構造、簡素化されたツール呼び出しインターフェース、ツール呼び出し結果への追加のトークン割り当て、および視覚的に困難な例を過剰に表現した学習データ混合を組み合わせることで、最大の効果を得ました。その結果、同様のサイズの参照モデルと比較して、一部の視覚的クエリ応答(VQA)操作で改善されたパフォーマンスが達成されます。これは、外部ツールから収集された詳細な視覚情報のおかげです。

Takeaways、Limitations

Takeaways:
限られた計算資源の下でのVLMの視覚的推論能力の向上の可能性の提示
GRPOと外部ツールの活用による効果的な学習戦略の提示
視覚的に困難な例を過大表現したデータセットの有効性の証明。
外部ツールを活用した詳細な視覚情報収集によるVQA性能の向上
Limitations:
特定のVQA操作のパフォーマンス向上のみを提示し、一般的なVLMのパフォーマンス向上の一般化の可能性は限られている可能性があります。
使用される外部ツールはズームに限定されており、さまざまな外部ツールの使用に関するさらなる研究が必要です。
提示された方法の効果が特定のデータセットと設定に依存する可能性があります。
他のVLMアーキテクチャまたはより複雑な視覚的推論作業の一般化の可能性に関するさらなる研究が必要です。
👍