Cet article propose une approche d'apprentissage par renforcement hiérarchique (RL) multi-échelles de temps pour pallier les lacunes de la conception de structures de politiques en conduite autonome (CA). Les méthodes de CA existantes basées sur l'RL entraînent souvent une instabilité ou une sous-optimisation du comportement de conduite en raison de politiques qui ne génèrent que des commandes de contrôle du véhicule à court terme ou des objectifs de conduite à long terme. Dans cette étude, nous proposons une structure de politiques hiérarchique qui intègre des politiques de haut et de bas niveau pour générer respectivement des instructions de conduite à long terme et des instructions de contrôle à court terme. Les politiques de haut niveau expriment explicitement l'instruction de conduite sous forme d'actions hybrides qui capturent le comportement de conduite multimodal et prennent en charge les mises à jour d'état des politiques de bas niveau. De plus, nous concevons un mécanisme de sécurité multi-échelles de temps pour garantir la sécurité. Les résultats d'évaluation sur un scénario d'autoroute à plusieurs voies, à la fois sur simulateur et à l'aide du jeu de données HighD, démontrent que l'approche proposée améliore efficacement l'efficacité de conduite, la cohérence du comportement et la sécurité.