Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning

Created by
  • Haebom
Category
Empty

저자

Radman Rakhshandehroo, Daniel Coombs

개요

ContagionRL은 공간적 유행병 시뮬레이션에서 체계적인 보상 설계를 위해 특별히 설계된 Gymnasium 호환 강화 학습 플랫폼입니다. 고정된 행동 규칙에 의존하는 기존의 에이전트 기반 모델과 달리, 이 플랫폼은 다양한 유행병 시나리오에서 보상 함수 설계가 학습된 생존 전략에 미치는 영향을 엄격하게 평가할 수 있습니다. ContagionRL은 구성 가능한 환경 매개변수를 갖춘 공간적 SIRS+D 역학 모델을 통합하여, 제한된 관찰 가능성, 다양한 이동 패턴, 불균일한 인구 역학을 포함한 다양한 조건에서 보상 함수를 스트레스 테스트할 수 있도록 합니다. 다섯 가지의 보상 설계를 평가하며, PPO, SAC, A2C와 같은 여러 RL 알고리즘을 사용합니다. 방향성 지침과 명시적인 준수 인센티브가 견고한 정책 학습의 중요한 구성 요소임을 확인했습니다.

시사점, 한계점

시사점:
보상 함수 선택이 에이전트 행동과 생존 결과에 큰 영향을 미칩니다.
방향성 지침 및 명시적인 준수 인센티브가 견고한 정책 학습에 중요합니다.
잠재장 보상 방식을 사용한 에이전트가 우수한 성능을 보입니다.
플랫폼의 모듈식 설계를 통해 보상-행동 관계를 체계적으로 탐색할 수 있습니다.
한계점:
해당 논문에서 한계점에 대한 직접적인 언급은 없음.
👍