Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DINO-R1: Incentivo a la capacidad de razonamiento en los modelos de la Fundación Visión

Created by
  • Haebom

Autor

Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

Describir

Este artículo propone DINO-R1, el primer intento de mejorar las capacidades de razonamiento contextual en modelos visuales (p. ej., la serie DINO) mediante aprendizaje por refuerzo. Si bien los marcos de ajuste fino basados en aprendizaje por refuerzo (p. ej., GRPO) se han aplicado principalmente a modelos lingüísticos, este artículo presenta la Optimización Relativa de Consultas por Grupo (GRQO), una novedosa estrategia de aprendizaje por refuerzo diseñada específicamente para modelos de representación basados en consultas. GRQO calcula recompensas a nivel de consulta basándose en la calidad de la alineación normalizada por grupo y aplica la regularización KL para reducir la inestabilidad del entrenamiento. Basándonos en Grounding-DINO, entrenamos la serie de modelos DINO-R1, que integra un codificador de indicaciones visuales y un mecanismo de selección de consultas guiado visualmente, y supera a los modelos existentes basados en aprendizaje supervisado en los conjuntos de datos COCO, LVIS y ODinW. Demuestra un sólido rendimiento de generalización tanto en escenarios de indicaciones visuales de vocabulario abierto como de conjunto cerrado.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar la capacidad de razonamiento contextual aplicando el aprendizaje de refuerzo a los modelos de Visual Basic.
Presentamos una estrategia efectiva de aprendizaje por refuerzo a través del algoritmo GRQO especializado para modelos de representación basados en consultas.
Demuestra un excelente desempeño y capacidad de generalización en escenarios de indicaciones visuales de vocabulario abierto y conjunto cerrado.
Reduce eficazmente la inestabilidad del entrenamiento mediante la regularización de KL.
Limitations:
Falta de análisis detallado del coste computacional y del tiempo de entrenamiento del método propuesto.
Se necesitan más experimentos en varios modelos de base visual y conjuntos de datos.
Se necesita más investigación sobre la capacidad de generalización del algoritmo GRQO y su aplicabilidad a otros tipos de tareas de inferencia.
👍