본 논문은 무한 지평선 마르코프 결정 과정(MDP)에서 평균 보상 결과를 향상시키기 위해 양자 가속의 잠재력을 조사합니다. 기존의 상호 작용 패러다임을 확장하는, 알려지지 않은 MDP와 상호 작용하는 에이전트를 위한 혁신적인 양자 프레임워크를 제시합니다. 이 방법은 효율적인 양자 평균 추정 기법을 통해 에이전트가 획득한 양자 신호를 활용하는 낙관주의 기반 표 형식 강화 학습 알고리즘을 설계하는 것을 포함합니다. 철저한 이론적 분석을 통해 양자 평균 추정의 이점이 무한 지평선 강화 학습의 후회 보장에 기하급수적인 발전을 가져온다는 것을 보여줍니다. 구체적으로, 제안된 양자 알고리즘은 $\tilde{\mathcal{O}}(1)$의 후회 경계를 달성하며, 이는 고전적인 알고리즘이 보이는 $\tilde{\mathcal{O}}(\sqrt{T})$ 경계에 비해 상당한 개선입니다.