본 연구는 패혈증 관리를 위한 강화 학습(RL)에서 시간 단계 크기가 미치는 영향을 경험적으로 평가했습니다. 기존 연구는 주로 4시간 간격의 시간 단계를 사용했지만, 이 간격이 환자 동역학을 왜곡하고 최적의 치료 정책을 방해할 수 있다는 우려가 있었습니다. 본 연구는 1, 2, 4, 8시간의 다양한 시간 단계 크기($\Delta t$)를 사용하여 오프라인 RL 파이프라인에서 실험을 수행했습니다. 공정한 비교를 위해 액션 재매핑 기법을 설계하고, 두 가지 정책 학습 설정 하에서 교차-$\Delta t$ 모델 선택을 수행했습니다. 연구의 목표는 시간 단계 크기가 상태 표현 학습, 행동 복제, 정책 훈련 및 오프라인 정책 평가에 미치는 영향을 정량화하는 것이었습니다.