Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

Created by
  • Haebom

作者

Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

概要

本論文は,大規模マルチモーダルモデルにおける画像ベースのツールと強化学習を活用した視覚的問題解決の限界を扱う。従来のオープンソースアプローチは、単調な推論パターンと限られた相互作用ターン数のために試行錯誤の探索を必要とする困難な作業には適していません。これを解決するために、本研究はツールベースの相互作用を拡張したMini-o3システムを提示します。 Mini-o3は、数十段階にわたるディープでマルチターンの推論を実行し、要求の厳しい視覚的検索操作で最先端のパフォーマンスを実現します. OpenAI o3スタイルの動作を再現するための3つの重要なコンポーネントは次のとおりです。まず、探索的推論のために設計された数千の難しい視覚的検索問題の集まりであるVisual Probe Datasetを構成します。第二に、深さ優先探索、試行錯誤、目標維持など、さまざまな推論パターンを示すコールドスタートパスを得るための繰り返しデータ収集パイプラインを開発します。第三に、強化学習中に過度のターン応答(最大ターン数に達した応答)に対するペナルティを防止する過度のターンマスキング戦略を提案し、トレーニング時間効率とテスト時間スケーラビリティのバランスをとります。 6回のインタラクションターン上限で訓練されているにもかかわらず、このモデルは、推論の際に自然に数十ターンに拡張される経路を生成し、ターン数が増加するにつれて精度が向上します。広範な実験は、Mini-o3が豊富な推論パターンと深い思考経路を生成し、困難な視覚的検索問題を効果的に解決することを示しています。

Takeaways、Limitations

Takeaways:
要求の厳しい視覚的検索操作で最先端のパフォーマンスを実現する新しいシステムMini-o3を提示します。
多様な推論パターン(深く優先探索、試行錯誤、目標維持など)を見せる深層で多重ターン推論可能。
限られた訓練ターン数にもかかわらず、推論時ターン数の拡張と精度の向上。
探索的推論のための新しいデータセットVisual Probe Datasetの提示。
過度のターンマスキング戦略による強化学習の効率性と拡張性の改善
Limitations:
Visual Probe Datasetの規模と一般化パフォーマンスの追加検証が必要です。
Mini-o3のパフォーマンスが特定の種類の視覚的検索問題に偏る可能性があります。
さまざまな種類の視覚的問題またはさまざまなモダリティの一般化パフォーマンス評価が必要です。
過度のターンマスキング戦略の最適化と一般化の可能性に関するさらなる研究が必要
👍