Cet article explore la résolution de problèmes de décomposition polynomiale multivariable à l'aide du modèle Transformer. Bien que largement utilisée en sciences et en ingénierie, la décomposition polynomiale est réputée pour sa complexité NP et requiert une précision et une perspicacité élevées. Cette étude développe un pipeline de génération de données synthétiques permettant un contrôle précis de la complexité du problème et entraîne un modèle Transformer par apprentissage supervisé pour évaluer le comportement de mise à l'échelle et les performances de généralisation. De plus, nous proposons l'optimisation des politiques relatives groupées par faisceau (BGRPO), une méthode d'apprentissage par renforcement prenant en compte la hiérarchie et adaptée aux problèmes algébriques complexes. Le réglage fin à l'aide de BGRPO améliore la précision et réduit la largeur du faisceau jusqu'à la moitié, réduisant ainsi la charge de travail d'inférence d'environ 75 %. De plus, le modèle proposé surpasse Mathematica en matière de simplification polynomiale.