Cet article propose l'algorithme Acteur-Critique Optimiste et Averse au Risque (ORAC) pour résoudre le problème de l'exploration conservatrice dans l'apprentissage par renforcement contraint et averse au risque (RaCRL), qui conduit à une convergence sous-optimale des politiques. ORAC construit une politique d'exploration qui maximise l'intervalle de confiance supérieur de la fonction récompense-valeur état-action et minimise l'intervalle de confiance inférieur de la fonction coût-valeur état-action averse au risque. Il encourage l'exploration de régions incertaines pour découvrir des états à forte récompense tout en satisfaisant les contraintes de sécurité, et démontre de meilleurs compromis récompense-coût par rapport aux méthodes existantes dans les tâches de contrôle continu telles que Safety-Gymnasium et CityLearn.