본 논문은 전통적인 재보험 최적화의 한계를 극복하기 위해 생성 모델(Variational Autoencoders, VAEs)과 강화학습(Proximal Policy Optimization, PPO)을 결합한 하이브리드 프레임워크를 제안한다. VAEs는 다중 상품 및 다년도 보험 청구 데이터의 복잡한 결합 분포를 학습하고, PPO는 이러한 학습 결과를 바탕으로 보험 계약 파라미터를 동적으로 조정한다. 이를 통해 자본 및 파산 확률 제약 하에서 기대 잉여를 극대화함으로써 보다 안정적이고 효율적인 재보험 전략을 구현한다.