Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BranchGRPO: GRPO estable y eficiente con ramificación estructurada en modelos de difusión

Created by
  • Haebom

Autor

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

Describir

Este artículo destaca que, a pesar de los recientes avances en la Optimización Guiada de Políticas Basada en Recompensas (GRPO), que mejora la alineación de las preferencias humanas en los modelos de generación de imágenes y vídeos, persisten los altos costes computacionales debido a la implementación de políticas y a los pasos excesivos de muestreo SDE, así como a la inestabilidad del entrenamiento causada por recompensas dispersas. Para abordar estos problemas, proponemos BranchGRPO, un novedoso método que introduce una política de muestreo ramificado para actualizar el proceso de muestreo SDE. Al compartir el cálculo entre prefijos comunes y podar las rutas de baja recompensa y las profundidades redundantes, BranchGRPO mantiene o mejora la diversidad de exploración, a la vez que reduce significativamente los costes computacionales por actualización. Entre las contribuciones clave se incluyen la reducción de los costes de implementación y entrenamiento mediante técnicas de muestreo ramificado, un estimador de beneficios basado en árboles que incorpora recompensas densas a nivel de proceso, y una mejor convergencia y rendimiento mediante estrategias de poda que aprovechan la redundancia de rutas y profundidades. Los resultados experimentales sobre la alineación de preferencias de imágenes y vídeos muestran que BranchGRPO mejora las puntuaciones de alineación en un 16 % con respecto a un modelo de referencia robusto, a la vez que reduce el tiempo de entrenamiento en un 50 %.

Takeaways, Limitations

Takeaways:
Mejoramos significativamente el rendimiento de alineación de preferencias humanas de los modelos de generación de imágenes y videos basados ​​en GRPO (mejora del 16%).
Redujimos efectivamente los costos computacionales al reducir el tiempo de entrenamiento en un 50%.
Proponemos nuevas técnicas, como el muestreo de ramas, estimadores de ventajas basados ​​en árboles y estrategias de poda, que abren nuevas direcciones para futuras investigaciones.
Limitations:
La eficacia del método propuesto podría limitarse a conjuntos de datos y modelos específicos. Se requieren experimentos adicionales con diversos conjuntos de datos y modelos.
El diseño de la recompensa densa puede afectar el rendimiento, y se necesita más investigación para determinar el diseño de recompensa óptimo.
Dado que el ajuste de parámetros de las estrategias de poda puede afectar el rendimiento, se necesita investigación sobre métodos de ajuste de parámetros eficientes.
👍