Este artículo aborda el problema del aprendizaje y ajuste fino de políticas expresivas con aprendizaje de refuerzo (RL) en línea utilizando conjuntos de datos fuera de línea. Las políticas expresivas (como las políticas de difusión y coincidencia de flujo) están parametrizadas por largas cadenas de eliminación de ruido, lo que dificulta la maximización del valor estable. Para abordar esto, este artículo propone un método para construir una política de RL en línea que maximiza el valor Q en lugar de optimizar directamente el valor con la política expresiva. Específicamente, proponemos un algoritmo llamado 'optimización de política expresiva (EXPO)' que utiliza una política base expresiva preentrenada con un objetivo de aprendizaje de imitación estable y una política de edición gaussiana ligera que mejora la distribución del valor. EXPO optimiza las acciones muestreadas de la política base con la política de edición aprendida y selecciona la acción que maximiza el valor entre las acciones base y editadas tanto para el muestreo como para el respaldo de retardo temporal (TD).