본 논문은 다수 에이전트 학습 알고리즘이 특정 환경을 넘어서는 경우 평형 해에 수렴하지 못하고, 반복적이거나 혼돈스러운 궤도와 같은 복잡하고 비정상적인 행동을 보이는 현상을 연구합니다. 특히, 에르되시-레니 모델과 확률적 블록 모델을 사용하여 네트워크 폴리매트릭스 게임에서 Q-러닝 역학을 분석합니다. 에르되시-레니 모델은 사회 네트워크의 잘 알려진 모델이고, 확률적 블록 모델은 네트워크 내의 커뮤니티 구조를 고려하여 에르되시-레니 모델을 일반화합니다. 각 설정에서, 에이전트의 공동 전략이 고유한 평형으로 수렴하는 충분 조건을 확립하고, 이 조건이 탐색 비율, 보상 행렬, 그리고 네트워크의 희소성에 어떻게 의존하는지 조사합니다. 마지막으로, 수치적 시뮬레이션을 통해 이론적 결과를 검증하고, 네트워크 희소성이 제어되는 경우 다수 에이전트 시스템에서 안정적으로 수렴을 달성할 수 있음을 보여줍니다.