Cet article propose une nouvelle méthode pour résoudre le problème de la sous-performance des méthodes existantes basées sur l'apprentissage par renforcement par imitation par rapport aux méthodes basées sur l'apprentissage par imitation, en raison du problème de convergence de l'apprentissage par renforcement et de la difficulté de concevoir la fonction de récompense dans la planification de trajectoires de conduite autonome urbaine basée sur l'apprentissage par renforcement (RL). Pour surmonter les limites des méthodes existantes, à savoir la planification en une seule étape et l'hypothèse d'une fonction de récompense linéaire, nous intégrons l'apprentissage par renforcement par imitation et l'apprentissage par imitation pour permettre une planification en plusieurs étapes, et développons une fonction de récompense bayésienne basée sur un transformateur pour fournir des signaux de récompense efficaces en milieu urbain. De plus, nous proposons un cadre de planification de trajectoire hybride pour améliorer la sécurité et l'interprétabilité. Les résultats expérimentaux obtenus à partir du jeu de données nuPlan montrent que la méthode proposée surpasse les méthodes existantes.