동적 환경에서의 경로 계획 문제를 해결하기 위해, 지역 기반의 환경 변화를 활용하는 확장 가능한 강화 학습(RL) 프레임워크를 제안한다. 환경을 계층적으로 분해하고 분산된 RL 에이전트를 배치하여 지역적으로 변화에 적응하도록 설계했다. 또한, 부분 환경 성공률에 기반한 정책 업데이트 재훈련 메커니즘을 제안한다. 단일 에이전트 Q-러닝과 다중 에이전트 연합 Q-러닝의 두 가지 학습 패러다임을 탐구하고, 연합 학습 방식이 더 나은 성능을 보임을 확인했다.