Cet article propose DINO-R1, la première tentative d'amélioration des capacités de raisonnement contextuel dans les modèles visuels (par exemple, la série DINO) grâce à l'apprentissage par renforcement. Alors que les cadres de réglage fin existants basés sur l'apprentissage par renforcement (par exemple, GRPO) ont principalement été appliqués aux modèles de langage, cet article présente l'optimisation des requêtes relatives de groupe (GRQO), une nouvelle stratégie d'apprentissage par renforcement spécialement conçue pour les modèles de représentation basés sur des requêtes. GRQO calcule les récompenses au niveau de la requête en fonction de la qualité de l'alignement normalisé par groupe et applique la régularisation KL pour réduire l'instabilité de l'apprentissage. En nous appuyant sur Grounding-DINO, nous entraînons la série de modèles DINO-R1, qui intègre un encodeur d'invites visuelles et un mécanisme de sélection de requêtes guidées visuellement. Cette approche surpasse les modèles d'apprentissage supervisé existants sur les jeux de données COCO, LVIS et ODinW. Elle démontre d'excellentes performances de généralisation dans les scénarios d'invites visuelles à vocabulaire ouvert et à ensemble fermé.