Este artículo propone un enfoque de aprendizaje por refuerzo (AR) jerárquico multiescala temporal para abordar las deficiencias del diseño de la estructura de políticas en la conducción autónoma (CA). Los métodos de CA basados en AR existentes a menudo resultan en inestabilidad o suboptimización del comportamiento de conducción debido a políticas que solo generan comandos de control del vehículo a corto plazo u objetivos de conducción a largo plazo. En este estudio, proponemos una estructura de políticas jerárquica que integra políticas de alto y bajo nivel para generar guías de conducción a largo plazo y comandos de control a corto plazo, respectivamente. Las políticas de alto nivel expresan explícitamente las guías de conducción como acciones híbridas que capturan el comportamiento de conducción multimodal y respaldan las actualizaciones de estado de las políticas de bajo nivel. Además, diseñamos un mecanismo de seguridad multiescala temporal para garantizar la seguridad. Los resultados de la evaluación en un escenario de autopista de varios carriles, tanto basados en simuladores como utilizando el conjunto de datos HighD, demuestran que el enfoque propuesto mejora efectivamente la eficiencia de conducción, la consistencia del comportamiento y la seguridad.