Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Shuffle-R1: Marco de aprendizaje dinámico eficiente para modelos de lenguaje multimodales de gran tamaño mediante Shuffle dinámico centrado en datos
Created by
Haebom
Autor
Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai
Describir
Este artículo presenta un método eficiente para mejorar el rendimiento de inferencia de modelos lingüísticos multimodales a gran escala (MLLM) mediante aprendizaje por refuerzo (AR). Los pipelines de AR existentes presentan dos problemas: el colapso de las ventajas y el silenciamiento de los despliegues. Esto se debe a que la mayoría de las ventajas se concentran cerca de cero, y la proporción de despliegues que producen gradientes distintos de cero disminuye con el tiempo. Para abordar estos problemas, proponemos el marco Shuffle-R1, que reconfigura dinámicamente el muestreo de trayectorias y las configuraciones por lotes para mejorar la eficiencia del ajuste fino del AR. Shuffle-R1 introduce el muestreo de trayectorias por pares, que mejora la calidad de la señal de gradiente mediante la selección de trayectorias con alto contraste, y la reorganización de trayectorias basada en ventajas, que expone despliegues valiosos. Los resultados experimentales en diversos benchmarks de inferencia demuestran que Shuffle-R1 supera a los modelos robustos de referencia de AR con una sobrecarga mínima.
Takeaways, Limitations
•
Takeaways:
◦
Presentamos un nuevo marco (Shuffle-R1) que mejora significativamente la eficiencia del entrenamiento RL para mejorar la capacidad de inferencia de MLLM.
◦
Esto soluciona de manera efectiva los problemas de colapso de ventaja y silencio de expansión, permitiendo actualizaciones de gradiente optimizadas.
◦
Demostramos que un enfoque basado en datos puede mejorar la eficiencia del entrenamiento de RL.
◦
Se demostró un rendimiento superior en comparación con los métodos existentes en varios puntos de referencia de inferencia.
•
Limitations:
◦
Se necesita más investigación sobre el rendimiento de generalización de Shuffle-R1.
◦
Puede que sólo sea eficaz para determinados tipos de tareas de MLLM o de inferencia.
◦
Falta de análisis detallado del coste computacional y la complejidad del método propuesto.