Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

Created by
  • Haebom

作者

Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

概要

本論文は、視覚基礎モデル(例:DINOシリーズ)で強化学習を使用してコンテキスト内推論能力を向上させる最初の試みであるDINO-R1を提案します。従来の強化学習ベースの微調整フレームワーク(GRPOなど)は主に言語モデルに適用されていますが、この論文ではクエリベースの表現モデル用に特別に設計された新しい強化学習戦略であるGroup Relative Query Optimization(GRQO)を紹介します。 GRQOはグループ正規化されたソート品質に基づいてクエリレベルの補償を計算し、KL正規化を適用してトレーニングの不安定性を減らします。 Grounding-DINOに基づいて、ビジュアルプロンプトエンコーダとビジュアルガイドクエリ選択メカニズムを統合したDINO-R1モデルシリーズをトレーニングし、COCO、LVIS、ODinWデータセットで既存のマップ学習ベースのモデルを上回るパフォーマンスを達成しました。これは、オープンな語彙と閉じたセットのビジュアルプロンプトシナリオの両方で強力な一般化パフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
視覚的基礎モデルに強化学習を適用することによってコンテキスト内推論能力を改善する新しい方法を提示
クエリベースの表現モデルに特化したGRQOアルゴリズムによる効果的な強化学習戦略を提示
オープンな語彙と閉じたセットのビジュアルプロンプトシナリオでは、優れたパフォーマンスと一般化能力を示します。
KL-正規化によってトレーニングの不安定性を効果的に減少させます。
Limitations:
提案された方法の計算コストと訓練時間の詳細な分析の欠如
さまざまなビジュアル基礎モデルとデータセットの追加実験が必要です。
GRQOアルゴリズムの一般化能力と他のタイプの推論タスクへの適用性に関するさらなる研究の必要性
👍