본 논문은 강화학습에서 Monte Carlo UCB (MC-UCB) 알고리즘의 수렴성에 대한 연구를 다룬다. MC-UCB 알고리즘은 에피소드의 수익을 평균하여 Q 함수를 업데이트하며, Upper Confidence Bounds (UCB) 탐험 항을 추가하여 덜 선택된 행동을 선호한다. 기존 연구는 주로 유한 지평선 문제에 집중했지만, 본 논문은 에피소드 길이가 임의적인 문제(예: 바둑, 체스, 로봇 작업)에 초점을 맞춘다. 이러한 문제에서 최적 정책은 정상 상태이며, Q 함수의 수렴성은 미해결 문제였다. 본 논문은 블랙잭과 같은 확률적 MDP와 바둑과 같은 결정적 MDP를 포함하는 광범위한 MDP 클래스에서 MC-UCB의 Q 함수가 최적 Q 함수로 거의 확실하게 수렴함을 증명한다. 또한, 모든 유한 지평선 MDP에 대해서도 거의 확실하게 수렴함을 보인다. 실험 결과를 통해 추가적인 통찰력을 제공한다.