Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

R-4B: Incentivo de la capacidad de autopensamiento de propósito general en MLLM mediante recocido bimodal y aprendizaje reforzado

Created by
  • Haebom

Autor

Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang

Describir

Para abordar las ineficiencias de los modelos de lenguaje multimodales a gran escala (MLLM) con capacidades de pensamiento paso a paso que destacan en la resolución de problemas de inferencia complejos, este artículo propone R-4B, un MLLM de pensamiento autónomo que determina adaptativamente si se activa el pensamiento en función de la complejidad del problema. R-4B utiliza recocido bimodal para incorporar capacidades de pensamiento y no pensamiento, y aplica optimización de políticas bimodales (BPO) para mejorar la precisión del modelo a la hora de determinar si se activan los procesos de pensamiento. Utilizando un conjunto de datos cuidadosamente seleccionado que abarca diversos temas, el modelo se entrena incluyendo muestras de modos de pensamiento y no pensamiento. Un segundo paso de entrenamiento, bajo un marco GRPO mejorado, obliga al modelo de políticas a generar respuestas en ambos modos para cada consulta de entrada. Los resultados experimentales muestran que R-4B logra un rendimiento de última generación en 25 puntos de referencia desafiantes, superando a Qwen2.5-VL-7B en la mayoría de las tareas, y logra un rendimiento comparable a modelos más grandes como Kimi-VL-A3B-Thinking-2506 (16B) en puntos de referencia de inferencia intensiva, pero a un costo computacional menor.

Takeaways, Limitations

Takeaways:
Demostramos la utilidad de una arquitectura MLLM de pensamiento automático que determina de forma adaptativa si pensar o no en función de la complejidad del problema.
Proponemos que el ineficiente proceso de pensamiento paso a paso del MLLM actual se puede mejorar para mejorar el rendimiento y al mismo tiempo reducir los costos computacionales.
Contribuye al desarrollo de MLLM ligero logrando un rendimiento similar al de los modelos a gran escala con parámetros limitados.
Limitations:
Se necesitan más investigaciones para determinar la generalización de los marcos BPO y GRPO propuestos.
Dado que se trata de una evaluación del rendimiento de un conjunto de datos específico, es necesario verificar el rendimiento de generalización para otros dominios o tareas.
Falta de claridad sobre qué tipos de problemas el R-4B utiliza el modo sin pensamiento y en qué tipos de problemas utiliza el modo pensante.
👍