Cet article aborde la problématique de l'apprentissage de politiques de conduite autonome robustes à partir de vastes ensembles de données réelles. Compte tenu des défis liés à la collecte de données en ligne, nous proposons une série de modèles basés sur la technique du clonage de comportement (BC) et comparons et étudions plusieurs modèles de référence de BC, dont un modèle de représentation d'état centré sur l'entité basé sur Transformer. Cependant, les modèles de BC présentent des vulnérabilités dans les simulations à long terme. Pour y remédier, nous appliquons le Q-Learning conservateur (CQL), un algorithme d'apprentissage par renforcement hors ligne de pointe, aux mêmes données et à la même architecture afin d'apprendre des politiques plus robustes. Grâce à une fonction de récompense soigneusement conçue, l'agent CQL apprend une fonction de valeur conservatrice qui récupère les erreurs mineures et évite les états hors distribution. Lors d'une évaluation à grande échelle portant sur 1 000 scénarios inconnus issus de l'ensemble de données Waymo Open Motion, l'agent CQL a obtenu un taux de réussite 3,2 fois supérieur et un taux d'accident 7,4 fois inférieur à celui du modèle de référence de BC le plus performant. Cela démontre l’importance des approches d’apprentissage par renforcement hors ligne pour l’apprentissage de politiques de conduite autonome robustes et à long terme à partir de données d’experts statiques.