본 논문은 강화학습(Reinforcement Learning, RL) 기반의 보험 준비금 설정 프레임워크를 제안합니다. 이 프레임워크는 극단적 위험 민감도, 거시경제 환경 모델링, 그리고 규제 준수를 통합합니다. 준비금 조정 문제는 유한 지평 마르코프 결정 과정(Markov Decision Process, MDP)으로 공식화되며, 조건부 위험가치(Conditional Value-at-Risk, CVaR) 제약 조건 하에서 근접 정책 최적화(Proximal Policy Optimization, PPO)를 사용하여 준비금 조정을 최적화합니다. 다양한 경제 상황에서 정책의 강건성을 높이기 위해, 에이전트는 변동성 노출을 점진적으로 증가시키는 체계 인식 커리큘럼을 사용하여 훈련됩니다. 보상 구조는 준비금 부족, 자본 비효율성 및 지급 능력 한계 위반에 대해 페널티를 부과하며, 그 설계 요소는 Solvency II 및 자체 위험 및 지급 능력 평가(Own Risk and Solvency Assessment, ORSA) 프레임워크를 바탕으로 합니다. 근로자 보상 및 기타 책임에 대한 두 가지 산업 데이터 세트에 대한 실증적 평가는 RL-CVaR 에이전트가 극단적 위험 제어 (CVaR$_{0.95}$), 자본 효율성 및 규제 위반율을 포함한 여러 기준에서 기존 준비금 방법보다 우수한 성능을 달성함을 보여줍니다. 이 프레임워크는 고정 충격 스트레스 테스트 및 체계별 분석을 수용하여 불확실성 하에서 준비금 설정에 대한 원칙적이고 확장 가능한 접근 방식을 제공합니다.