본 논문은 라우터와 같이 이전 라운드의 결과가 미래 게임에 영향을 미치는 누적 효과가 있는 게임에서의 학습 결과를 고려합니다. Gaitonde와 Tardos의 이전 연구는 서버에 버퍼가 없는 비현실적인 모델을 사용하여, 시스템 안정성을 위해 타임스탬프와 우선순위가 필요함을 보였습니다. 본 논문은 서버에 작은 버퍼를 추가하고 타임스탬프나 우선순위를 사용하지 않음으로써 모델의 현실성을 높이고 더 높은 트래픽 처리율을 허용하는 수정된 모델을 제시합니다. 이론적 분석과 시뮬레이션을 통해 중앙 조정 방식에 비해 일정 비율의 서버 용량 증가만으로도 시스템 안정성을 유지할 수 있음을 보입니다. 특히, 서버가 동시에 도착한 패킷 중 무작위로 선택하는 경우에도 이러한 결과가 성립함을 증명합니다.