본 논문은 고수준의 딥 Q-네트워크(DQN)를 이용한 이산적인 하위 목표 선택과 저수준의 Twin Delayed Deep Deterministic Policy Gradient (TD3) 컨트롤러를 이용한 연속적인 제어를 결합한 계층적 경로 계획 및 제어 프레임워크를 제시한다. 고수준 모듈은 행동 및 하위 목표를 선택하고, 저수준 모듈은 부드러운 속도 명령을 실행한다. 방향, 거리, 장애물 회피, 동작의 부드러움, 충돌 페널티, 시간 페널티 및 진행 상황을 포함하는 실용적인 보상 형태 설계와 안전하지 않은 움직임을 방지하는 LiDAR 기반 안전 게이트를 구현했다. ROS + Gazebo (TurtleBot3) 환경에서 구현되었으며 PathBench 메트릭을 사용하여 동적 및 부분 관측 환경에서 성공률, 충돌률, 경로 효율성, 재계획 효율성 등을 평가했다. 단일 알고리즘(DQN 또는 TD3 단독) 및 규칙 기반 계획보다 향상된 성공률과 샘플 효율성을 보였으며, 보이지 않는 장애물 구성에 대한 일반화 성능과 갑작스러운 제어 변경 감소를 확인했다.