Sign In

Network-Constrained Policy Optimization for Adaptive Multi-agent Vehicle Routing

Created by
  • Haebom
Category
Empty

저자

Fazel Arasteh, Arian Haghparast, Manos Papagelis

개요

도시 교통 체증은 통행 시간 증가와 배기가스 증가를 야기하며, 특히 피크 시간에 심화된다. 단일 차량의 정적 네트워크에서는 최단 경로 우선(SPF) 알고리즘이 최적이지만, 동적 다중 차량 환경에서는 모든 차량을 동일한 경로로 안내하여 체증을 악화시키는 경향이 있다. 본 연구는 네트워크 인지형 차량 항법을 위한 다중 에이전트 강화 학습(MARL) 프레임워크를 통해 동적 차량 경로 설정을 해결한다. 먼저, 각 교차로 에이전트가 (i) 지역 교통량과 (ii) 그래프 어텐션 네트워크(GAT)를 사용하여 모델링된 인접 상태를 기반으로 경로 안내를 제공하는 분산 MARL 모델인 적응형 항법(AN)을 제안한다. 대규모 네트워크의 확장성을 개선하기 위해 AN을 확장하여 핵심 교차로(허브)에만 에이전트를 할당하는 계층적 허브 기반 적응형 항법(HHAN)을 제안한다. 차량은 에이전트 제어 하에 허브 간 라우팅되며, SPF는 각 허브 영역 내에서 미세 라우팅을 처리한다. 허브 조정을 위해 HHAN은 어텐션을 통해 비동기식 차량 결정을 집계하는 Attentive Q-Mixing(A-QMIX) 프레임워크 하에서 중앙 집중식 훈련과 분산 실행(CTDE)을 채택한다. 허브 에이전트는 지역 혼잡 및 예측 역학을 결합한 흐름 인지 상태 특징을 사용하여 사전 예방적 라우팅을 수행한다. 합성 격자 및 실제 도시 지도(토론토, 맨해튼)에 대한 실험 결과, AN은 SPF 및 학습 기반보다 평균 통행 시간을 단축하고 100% 라우팅 성공률을 유지했다. HHAN은 수백 개의 교차로가 있는 네트워크로 확장 가능하며, 교통량이 많은 상황에서 최대 15.9%의 개선을 달성했다. 이러한 결과는 지능형 교통 시스템에서 확장 가능하고 조정되며 혼잡을 인식하는 라우팅을 위한 네트워크 제약 MARL의 가능성을 강조한다.

시사점, 한계점

시사점:
다중 에이전트 강화 학습(MARL) 프레임워크를 활용하여 동적 교통 환경에서 효율적인 차량 경로 설정을 제시.
적응형 항법(AN) 모델을 통해 지역 교통 상황과 인접 상태를 고려한 분산형 라우팅 구현.
계층적 허브 기반 적응형 항법(HHAN) 모델을 통해 대규모 네트워크에서의 확장성 확보.
실제 도시 지도(토론토, 맨해튼)에서의 실험을 통해 제안 모델의 성능 검증 및 실용성 입증.
SPF 알고리즘 및 학습 기반 모델 대비 평균 통행 시간 단축 및 라우팅 성공률 향상.
한계점:
모델의 복잡성 및 계산 비용이 증가할 수 있음.
네트워크 변화에 대한 적응 능력이 제한적일 수 있음.
허브 선택 및 설정에 따라 성능 차이가 발생할 수 있음.
실제 교통 환경의 다양한 변수를 모두 고려하지 못할 수 있음.
👍