Este artículo propone DINO-R1, el primer intento de mejorar las capacidades de razonamiento contextual en modelos visuales (p. ej., la serie DINO) mediante aprendizaje por refuerzo. Si bien los marcos de ajuste fino basados en aprendizaje por refuerzo (p. ej., GRPO) se han aplicado principalmente a modelos lingüísticos, este artículo presenta la Optimización Relativa de Consultas por Grupo (GRQO), una novedosa estrategia de aprendizaje por refuerzo diseñada específicamente para modelos de representación basados en consultas. GRQO calcula recompensas a nivel de consulta basándose en la calidad de la alineación normalizada por grupo y aplica la regularización KL para reducir la inestabilidad del entrenamiento. Basándonos en Grounding-DINO, entrenamos la serie de modelos DINO-R1, que integra un codificador de indicaciones visuales y un mecanismo de selección de consultas guiado visualmente, y supera a los modelos existentes basados en aprendizaje supervisado en los conjuntos de datos COCO, LVIS y ODinW. Demuestra un sólido rendimiento de generalización tanto en escenarios de indicaciones visuales de vocabulario abierto como de conjunto cerrado.