본 논문은 빠르게 변화하는 상태 변수("빠른 상태")와 느리게 변화하는 상태 변수("느린 상태")를 포함하는 "빠름-느림" 구조를 가진 무한 지평 마르코프 의사결정 과정(MDP)을 연구합니다. 실제 문제에서 장기간에 걸쳐 고빈도로 순차적 의사결정이 필요하고, 느리게 진화하는 정보가 최적 의사결정에 영향을 미치는 경우 이러한 구조가 일반적입니다. 예를 들어, 느리게 변화하는 수요에 따른 재고 관리나 점진적으로 변화하는 소비자 행동을 고려한 동적 가격 책정 등이 있습니다. 자연적인 의사결정 빈도로 문제를 모델링하면 할인율이 1에 가까운 MDP가 되어 계산적으로 어려워집니다. 본 논문에서는 하위 수준 계획 단계에서 느린 상태를 "고정"하는 새로운 근사 전략을 제안합니다. 고정된 느린 상태를 조건으로 유한 지평 MDP를 풀고, 그 후 더 느린 시간 척도에서 진화하는 보조 상위 수준 MDP에 대한 값 반복을 적용합니다. 짧은 시간 동안 상태를 고정하면 하위 수준 문제를 더 쉽게 풀 수 있고, 더 느린 상위 수준 시간 척도는 더 유리한 할인율을 허용합니다. 이론적으로는 고정 상태 접근 방식으로 인한 후회를 분석하여 계산 비용과 후회 간의 절충 방법에 대한 간단한 통찰력을 제공합니다. 실험적으로 고정 상태 방법이 훨씬 적은 계산으로 고품질 정책을 생성하고, 느린 상태를 단순히 생략하는 것은 종종 나쁜 휴리스틱임을 보여줍니다.