본 논문은 무한 반복 게임에서 $Q$-학습 에이전트가 초경쟁적 가격을 책정하는 이유에 대한 최초의 이론적 설명을 제공합니다. 기업들은 균형 전략을 계산하지 않고 관찰된 이윤에만 기반하여 가격 정책을 업데이트합니다. 게임이 단일 단계 내쉬 균형 가격과 담합 가능 가격을 모두 허용하고, 실험이 끝날 때 $Q$-함수가 특정 부등식을 만족하는 경우, 기업들은 일관되게 초경쟁적 가격을 책정하는 것을 학습한다는 것을 보여줍니다. 또한, 새로운 종류의 단일 메모리 하위 게임 완전 균형(SPE)을 제시하고, 학습된 행동이 순진한 담합, 엄격한 트리거 정책 또는 증가 전략에 의해 뒷받침되는 조건을 제공합니다. 순진한 담합은 담합 가능 가격이 단일 단계 내쉬 균형일 때만 SPE를 구성하지만, 엄격한 트리거 정책은 SPE를 구성할 수 있습니다.