본 논문은 방갈로르와 같은 도시의 급격한 도시화로 인한 교통 체증 문제를 해결하기 위해, Multi-Agent Reinforcement Learning (MARL) 기반의 효율적인 교통 신호 제어(TSC) 시스템을 제안하고, 해당 알고리즘의 안정성과 수렴성에 대한 이론적 분석을 수행한다. 특히, 독립적인 Q-learning 에이전트를 사용하는 협력적 TSC 작업에서 발생하는 수렴 문제를 stochastic approximation 방법을 사용하여 분석하고, 특정 MARL 알고리즘이 주어진 조건 하에서 수렴한다는 것을 증명한다.