Este artículo destaca que, a pesar de los recientes avances en la Optimización Guiada de Políticas Basada en Recompensas (GRPO), que mejora la alineación de las preferencias humanas en los modelos de generación de imágenes y vídeos, persisten los altos costes computacionales debido a la implementación de políticas y a los pasos excesivos de muestreo SDE, así como a la inestabilidad del entrenamiento causada por recompensas dispersas. Para abordar estos problemas, proponemos BranchGRPO, un novedoso método que introduce una política de muestreo ramificado para actualizar el proceso de muestreo SDE. Al compartir el cálculo entre prefijos comunes y podar las rutas de baja recompensa y las profundidades redundantes, BranchGRPO mantiene o mejora la diversidad de exploración, a la vez que reduce significativamente los costes computacionales por actualización. Entre las contribuciones clave se incluyen la reducción de los costes de implementación y entrenamiento mediante técnicas de muestreo ramificado, un estimador de beneficios basado en árboles que incorpora recompensas densas a nivel de proceso, y una mejor convergencia y rendimiento mediante estrategias de poda que aprovechan la redundancia de rutas y profundidades. Los resultados experimentales sobre la alineación de preferencias de imágenes y vídeos muestran que BranchGRPO mejora las puntuaciones de alineación en un 16 % con respecto a un modelo de referencia robusto, a la vez que reduce el tiempo de entrenamiento en un 50 %.