Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Fomento del razonamiento multimodal mediante el aprendizaje por refuerzo con inicio en frío

Created by
  • Haebom

Autor

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

Describir

En este artículo, investigamos el papel del aprendizaje por refuerzo (AR) en la mejora de la capacidad de inferencia de cadenas de pensamiento de los modelos lingüísticos a gran escala (LLM). En primer lugar, demostramos que los patrones de "momento revelador" (reflexión mediante autocorrección) existen incluso antes del entrenamiento en AR en LLM multimodales (MLLM), pero podrían no estar correlacionados con una mejora en el rendimiento de la inferencia. Con base en esto, presentamos un enfoque de dos pasos que combina el ajuste fino del aprendizaje supervisado (SFT) mediante patrones de inferencia de cadenas de pensamiento estructurados y el aprendizaje por refuerzo mediante GRPO. Los resultados experimentales muestran que este enfoque supera a los métodos basados exclusivamente en SFT y AR en diversos parámetros de inferencia multimodal. Se alcanza un rendimiento de vanguardia entre los MLLM de código abierto para los modelos 3B y 7B. En particular, el modelo 7B mejora significativamente el rendimiento con respecto a los modelos de referencia (p. ej., MathVista 66,3 % → 73,4 %, We-Math 62,9 % → 70,4 %). Este estudio proporciona una guía práctica para la creación de modelos avanzados de inferencia multimodal, y el código está disponible públicamente en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un enfoque eficaz de dos pasos (SFT + RL) para mejorar el razonamiento en cadena de pensamiento en LLM multimodal.
Combinando SFT y RL para lograr un rendimiento de última generación en MLLM de código abierto.
Revelamos que los patrones de "momento revelador" no siempre conducen directamente a un mejor rendimiento de inferencia.
Demostrar escalabilidad para el tamaño del modelo mostrando mejoras de rendimiento en los modelos 3B y 7B.
Limitations:
Se necesitan más investigaciones sobre el rendimiento de generalización del enfoque presentado en este estudio.
Se necesitan experimentos en varios conjuntos de datos multimodales.
Se necesita un análisis más profundo de la relación entre los patrones del "momento revelador" y el rendimiento de la inferencia.
👍