Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Insurance Reserving with CVaR-Constrained Reinforcement Learning under Macroeconomic Regimes

Created by
  • Haebom

저자

Stella C. Dong, James R. Finlay

개요

본 논문은 강화학습(Reinforcement Learning, RL) 기반의 보험 준비금 설정 프레임워크를 제안합니다. 이 프레임워크는 극단적 위험 민감도, 거시경제 환경 모델링, 그리고 규제 준수를 통합합니다. 준비금 조정 문제는 유한 지평 마르코프 결정 과정(Markov Decision Process, MDP)으로 공식화되며, 조건부 위험가치(Conditional Value-at-Risk, CVaR) 제약 조건 하에서 근접 정책 최적화(Proximal Policy Optimization, PPO)를 사용하여 준비금 조정을 최적화합니다. 다양한 경제 상황에서 정책의 강건성을 높이기 위해, 에이전트는 변동성 노출을 점진적으로 증가시키는 체계 인식 커리큘럼을 사용하여 훈련됩니다. 보상 구조는 준비금 부족, 자본 비효율성 및 지급 능력 한계 위반에 대해 페널티를 부과하며, 그 설계 요소는 Solvency II 및 자체 위험 및 지급 능력 평가(Own Risk and Solvency Assessment, ORSA) 프레임워크를 바탕으로 합니다. 근로자 보상 및 기타 책임에 대한 두 가지 산업 데이터 세트에 대한 실증적 평가는 RL-CVaR 에이전트가 극단적 위험 제어 (CVaR$_{0.95}$), 자본 효율성 및 규제 위반율을 포함한 여러 기준에서 기존 준비금 방법보다 우수한 성능을 달성함을 보여줍니다. 이 프레임워크는 고정 충격 스트레스 테스트 및 체계별 분석을 수용하여 불확실성 하에서 준비금 설정에 대한 원칙적이고 확장 가능한 접근 방식을 제공합니다.

시사점, 한계점

시사점:
강화학습을 활용하여 보험 준비금 설정의 효율성 및 안정성을 향상시킬 수 있음을 보여줌.
극단적 위험(tail risk)을 효과적으로 관리하는 새로운 방법 제시.
거시경제 환경 변화를 고려한 준비금 설정 가능.
Solvency II 및 ORSA 규제 준수를 위한 프레임워크 제공.
기존 방법 대비 우수한 성능을 실증적으로 검증.
한계점:
모델의 정확성은 사용된 데이터의 질에 의존적일 수 있음.
강화학습 모델의 학습 과정에 대한 해석의 어려움.
실제 보험 환경의 복잡성을 완벽하게 반영하지 못할 수 있음.
특정 데이터 세트에 대한 성능 검증이므로 일반화 가능성에 대한 추가 연구 필요.
PPO 알고리즘의 매개변수 조정에 대한 민감도 분석이 부족할 수 있음.
👍