Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DINO-R1 : Encourager la capacité de raisonnement dans les modèles de fondation de la vision

Created by
  • Haebom

Auteur

Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

Contour

Cet article propose DINO-R1, la première tentative d'amélioration des capacités de raisonnement contextuel dans les modèles visuels (par exemple, la série DINO) grâce à l'apprentissage par renforcement. Alors que les cadres de réglage fin existants basés sur l'apprentissage par renforcement (par exemple, GRPO) ont principalement été appliqués aux modèles de langage, cet article présente l'optimisation des requêtes relatives de groupe (GRQO), une nouvelle stratégie d'apprentissage par renforcement spécialement conçue pour les modèles de représentation basés sur des requêtes. GRQO calcule les récompenses au niveau de la requête en fonction de la qualité de l'alignement normalisé par groupe et applique la régularisation KL pour réduire l'instabilité de l'apprentissage. En nous appuyant sur Grounding-DINO, nous entraînons la série de modèles DINO-R1, qui intègre un encodeur d'invites visuelles et un mécanisme de sélection de requêtes guidées visuellement. Cette approche surpasse les modèles d'apprentissage supervisé existants sur les jeux de données COCO, LVIS et ODinW. Elle démontre d'excellentes performances de généralisation dans les scénarios d'invites visuelles à vocabulaire ouvert et à ensemble fermé.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle méthode pour améliorer la capacité de raisonnement contextuel en appliquant l'apprentissage par renforcement aux modèles Visual Basic.
Nous présentons une stratégie d'apprentissage par renforcement efficace grâce à l'algorithme GRQO spécialisé dans les modèles de représentation basés sur des requêtes.
Démontre d'excellentes performances et une excellente capacité de généralisation dans des scénarios de vocabulaire ouvert et d'incitation visuelle à ensemble fermé.
Réduit efficacement l’instabilité de l’entraînement grâce à la régularisation KL.
Limitations:
Manque d’analyse détaillée du coût de calcul et du temps de formation de la méthode proposée.
D’autres expériences sont nécessaires sur divers modèles de fondation visuelle et ensembles de données.
Des recherches supplémentaires sont nécessaires sur la capacité de généralisation de l’algorithme GRQO et son applicabilité à d’autres types de tâches d’inférence.
👍