Este artículo explora la solución de problemas de descomposición polinómica multivariable mediante el modelo Transformer. La descomposición polinómica, si bien se aplica ampliamente en ciencia e ingeniería, es conocida por ser NP-hard y requiere alta precisión y perspicacia. Este estudio desarrolla un flujo de trabajo de generación de datos sintéticos que permite un control preciso de la complejidad del problema y entrena un modelo Transformer mediante aprendizaje supervisado para evaluar el comportamiento de escalamiento y el rendimiento de generalización. Además, proponemos la Optimización de Políticas Relativa Agrupada por Haz (BGRPO), un método de aprendizaje por refuerzo con jerarquía, adecuado para problemas algebraicos complejos. El ajuste fino mediante BGRPO mejora la precisión y reduce el ancho del haz hasta a la mitad, lo que reduce la carga de trabajo de inferencia en aproximadamente un 75 %. Además, el modelo propuesto supera a Mathematica en la simplificación polinómica.