Este artículo propone el algoritmo Actor-Crítico Optimista con Aversión al Riesgo (ORAC) para abordar el problema de la exploración conservadora en el aprendizaje de refuerzo restringido con aversión al riesgo (RaCRL), que conduce a una convergencia de políticas subóptima. ORAC construye una política de exploración que maximiza el intervalo de confianza superior de la función de recompensa-valor de estado-acción y minimiza el intervalo de confianza inferior de la función de costo-valor de estado-acción con aversión al riesgo. Fomenta la exploración de regiones inciertas para descubrir estados de alta recompensa, cumpliendo las restricciones de seguridad, y demuestra mejores equilibrios entre recompensa y costo en comparación con los métodos existentes en tareas de control continuo como Safety-Gymnasium y CityLearn.