Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Reforzar los VLM para utilizar herramientas de razonamiento visual detallado bajo limitaciones de recursos

Created by
  • Haebom

Autor

Sunil Kumar, Bowen Zhao, Leo Dirac, Paulina Varshavskaya

Describir

Este artículo presenta un método para mejorar la capacidad de razonamiento visual detallado de los modelos de lenguaje visual (MLV), incluso en condiciones computacionales limitadas. Inspirados por Deepseek-r1, entrenamos modelos pequeños mediante Optimización de Políticas Relativa de Grupo (GRPO) y aprovechamos herramientas externas como Zoom. Logramos el máximo beneficio combinando el entrenamiento GRPO, una estructura de recompensas simple, una interfaz optimizada para llamadas a herramientas, asignación adicional de tokens para los resultados de las llamadas a herramientas y una combinación de datos de entrenamiento que sobrerrepresenta los ejemplos visualmente complejos. En consecuencia, logramos un mejor rendimiento en algunas tareas de respuesta visual a preguntas (VQA) en comparación con modelos base de tamaño similar, gracias a la información visual detallada recopilada por las herramientas externas.

Takeaways, Limitations

Takeaways:
Sugerimos la posibilidad de mejorar la capacidad de razonamiento visual de los VLM con recursos computacionales limitados.
Presentar estrategias de aprendizaje efectivas mediante el uso de GRPO y herramientas externas.
Prueba de la utilidad de los conjuntos de datos que sobrerrepresentan ejemplos visualmente desafiantes.
Mejorar el rendimiento de VQA mediante la recopilación de información visual detallada mediante herramientas externas.
Limitations:
Sólo se presentan mejoras de rendimiento para tareas VQA específicas, y la generalización a mejoras de rendimiento para VLM generales puede ser limitada.
Dado que las herramientas externas utilizadas se limitaron al zoom, se necesita más investigación sobre el uso de diversas herramientas externas.
La eficacia del método propuesto puede depender de conjuntos de datos y configuraciones específicos.
Se necesitan más investigaciones para determinar la generalización a otras arquitecturas VLM o tareas de razonamiento visual más complejas.
👍