본 논문은 위험 회피 제약 강화 학습(RaCRL)에서 보수적인 탐색으로 인해 최적이 아닌 정책으로 수렴하는 문제를 해결하기 위해, 낙관적 위험 회피 행위자 비평가(ORAC) 알고리즘을 제안합니다. ORAC는 상태-행동 보상 가치 함수의 상한 신뢰 구간을 최대화하고, 위험 회피 상태-행동 비용 가치 함수의 하한 신뢰 구간을 최소화하는 탐색 정책을 구성합니다. 안전 제약 조건을 만족하면서 고보상 상태를 발견하기 위해 불확실한 영역을 탐색하도록 유도하며, Safety-Gymnasium 및 CityLearn과 같은 다양한 연속 제어 작업에서 최적이 아닌 정책으로의 수렴을 방지하고 보상-비용 절충을 개선함을 실험 결과를 통해 보여줍니다.