Este artículo aborda el problema del aprendizaje de políticas robustas de conducción autónoma a partir de conjuntos de datos reales a gran escala. Considerando los desafíos de la recopilación de datos en línea, proponemos una serie de modelos basados en la técnica de clonación de comportamiento (BC) y comparamos y estudiamos varios modelos de referencia de BC, incluyendo un modelo de representación de estados centrado en entidades basado en Transformer. Sin embargo, los modelos de BC presentan vulnerabilidades en simulaciones a largo plazo. Para abordar esto, aplicamos Conservative Q-Learning (CQL), un algoritmo de aprendizaje por refuerzo fuera de línea de última generación, a los mismos datos y arquitectura para aprender políticas más robustas. Utilizando una función de recompensa cuidadosamente diseñada, el agente CQL aprende una función de valor conservadora que se recupera de errores menores y evita estados fuera de distribución. En una evaluación a gran escala de 1000 escenarios desconocidos del conjunto de datos Waymo Open Motion, el agente CQL logró una tasa de éxito 3,2 veces mayor y una tasa de accidentes 7,4 veces menor que el modelo de referencia de BC de mejor rendimiento. Esto demuestra la importancia de los enfoques de aprendizaje de refuerzo fuera de línea para aprender políticas de conducción autónoma sólidas y a largo plazo a partir de datos estáticos de expertos.