ContagionRL은 공간적 유행병 시뮬레이션에서 체계적인 보상 설계를 위해 특별히 설계된 Gymnasium 호환 강화 학습 플랫폼입니다. 고정된 행동 규칙에 의존하는 기존의 에이전트 기반 모델과 달리, 이 플랫폼은 다양한 유행병 시나리오에서 보상 함수 설계가 학습된 생존 전략에 미치는 영향을 엄격하게 평가할 수 있습니다. ContagionRL은 구성 가능한 환경 매개변수를 갖춘 공간적 SIRS+D 역학 모델을 통합하여, 제한된 관찰 가능성, 다양한 이동 패턴, 불균일한 인구 역학을 포함한 다양한 조건에서 보상 함수를 스트레스 테스트할 수 있도록 합니다. 다섯 가지의 보상 설계를 평가하며, PPO, SAC, A2C와 같은 여러 RL 알고리즘을 사용합니다. 방향성 지침과 명시적인 준수 인센티브가 견고한 정책 학습의 중요한 구성 요소임을 확인했습니다.