Este artículo presenta V-Max, un marco de investigación abierto diseñado para optimizar el aprendizaje por refuerzo (AR) en la conducción autónoma (CA). Su objetivo es superar la diferencia en la distribución de datos y la brecha de imitación del aprendizaje por imitación convencional (AI) y la falta de un entorno de investigación estandarizado y eficiente para la aplicación del AR a la conducción autónoma. V-Max se basa en Waymax, un simulador de CA acelerado por hardware diseñado para experimentos a gran escala, y aprovecha el enfoque ScenarioNet para permitir la simulación rápida de diversos conjuntos de datos de CA. Su objetivo es reducir la sobrecarga de ingeniería de los enfoques basados en reglas al permitir políticas de conducción autónoma generalizables.