본 논문은 다수의 4족 보행 로봇을 이용한 장거리, 장애물 인식 밀기 작업을 다룬다. 실제 세계의 응용(구조대, 건설, 산업 자동화, 방 정리 등)에서 4족 보행 로봇의 조작 능력, 특히 큰 물체 취급 능력의 제한을 해결하기 위해, 3단계 제어를 갖는 계층적 다중 에이전트 강화 학습 프레임워크를 제안한다. 고수준 제어기는 RRT 플래너와 중앙 집중식 적응 정책을 통합하여 하위 목표를 생성하고, 중간 수준 제어기는 분산된 목표 조건 정책을 사용하여 로봇을 이러한 하위 목표로 안내하며, 사전 훈련된 저수준 보행 정책이 움직임 명령을 실행한다. 시뮬레이션과 실제 Go1 로봇을 이용한 실험을 통해 제안된 방법의 효과를 검증하고, 기존 방법 대비 성공률 36.0% 향상 및 완료 시간 24.5% 단축을 보였다.