도시 교통 체증은 통행 시간 증가와 배기가스 증가를 야기하며, 특히 피크 시간에 심화된다. 단일 차량의 정적 네트워크에서는 최단 경로 우선(SPF) 알고리즘이 최적이지만, 동적 다중 차량 환경에서는 모든 차량을 동일한 경로로 안내하여 체증을 악화시키는 경향이 있다. 본 연구는 네트워크 인지형 차량 항법을 위한 다중 에이전트 강화 학습(MARL) 프레임워크를 통해 동적 차량 경로 설정을 해결한다. 먼저, 각 교차로 에이전트가 (i) 지역 교통량과 (ii) 그래프 어텐션 네트워크(GAT)를 사용하여 모델링된 인접 상태를 기반으로 경로 안내를 제공하는 분산 MARL 모델인 적응형 항법(AN)을 제안한다. 대규모 네트워크의 확장성을 개선하기 위해 AN을 확장하여 핵심 교차로(허브)에만 에이전트를 할당하는 계층적 허브 기반 적응형 항법(HHAN)을 제안한다. 차량은 에이전트 제어 하에 허브 간 라우팅되며, SPF는 각 허브 영역 내에서 미세 라우팅을 처리한다. 허브 조정을 위해 HHAN은 어텐션을 통해 비동기식 차량 결정을 집계하는 Attentive Q-Mixing(A-QMIX) 프레임워크 하에서 중앙 집중식 훈련과 분산 실행(CTDE)을 채택한다. 허브 에이전트는 지역 혼잡 및 예측 역학을 결합한 흐름 인지 상태 특징을 사용하여 사전 예방적 라우팅을 수행한다. 합성 격자 및 실제 도시 지도(토론토, 맨해튼)에 대한 실험 결과, AN은 SPF 및 학습 기반보다 평균 통행 시간을 단축하고 100% 라우팅 성공률을 유지했다. HHAN은 수백 개의 교차로가 있는 네트워크로 확장 가능하며, 교통량이 많은 상황에서 최대 15.9%의 개선을 달성했다. 이러한 결과는 지능형 교통 시스템에서 확장 가능하고 조정되며 혼잡을 인식하는 라우팅을 위한 네트워크 제약 MARL의 가능성을 강조한다.