MCTS와 MAB를 결합한 기존 연구의 한계를 극복하기 위해, 비용-대-이동 추정치의 범위를 좁히고 Full Bellman backup의 이론적 근거를 제시하는 새로운 MAB 알고리즘(UCB1-Uniform)을 제안합니다. Peaks-Over-Threshold Extreme Value Theory를 활용하여 UCB1-Uniform의 후회(regret) bound를 증명하고, 고전 계획(classical planning) 문제에서 성능을 입증합니다.