본 논문은 $N$명의 분산 에이전트가 경험적 시스템의 단일 비-에피소드 실행 과정에서 학습하는 오라클 없는 설정에 네트워크 통신을 평균장 게임 프레임워크에 도입한다. 중앙 집중식 학습과 독립 학습의 경우 사이에 제한된 샘플 보장을 가지는 구조임을 증명하고, 네트워크 구조와 통신 라운드 수에 따라 이러한 경계의 차이 순서를 제공하며, 정책 업데이트 안정성 보장을 제공한다. 세 가지 이론적 알고리즘의 샘플 보장이 실제 수렴으로 이어지지 않는다는 점을 논의하고, 이론적 매개변수가 관찰되지 않는 실제 설정(Q-함수의 잘못된 추정으로 이어짐)에서 제안하는 통신 체계가 독립적인 경우에 비해 학습을 상당히 가속화하고, 종종 중앙 집중식 학습자와 유사하게 수행하면서 후자의 제한적인 가정을 제거함을 보여준다. 세 가지 이론적 알고리즘 모두에 대한 추가적인 실용적인 개선 사항을 제공하여 최초의 실험적 데모를 제시한다. 실험을 통해 알고리즘의 여러 이론적 가정을 제거할 수 있으며, 새로운 네트워크 통신으로 인한 경험적 수렴 이점을 보여준다. 또한 네트워크 접근 방식은 업데이트 실패 및 모집단 크기 변경에 대한 강력함 측면에서 두 가지 대안보다 상당한 이점이 있음을 보여준다.