본 논문은 선형 Q-학습의 L² 수렴 속도를 최초로 규명합니다. 기존 연구인 Meyn (2024)의 선형 Q-학습 반복의 거의 확실한 유계성 결과를 기반으로, 어떠한 알고리즘 수정이나 Bellman 완전성 가정, 또는 행동 정책의 준 최적성 가정 없이 적응적 온도를 갖는 ε-softmax 행동 정책 하에서 선형 Q-학습 반복의 L² 수렴 속도를 증명합니다. 핵심 분석은 빠르게 변화하는 전이 함수를 갖는 마르코프 잡음 하에서의 확률적 근사에 대한 일반적인 결과에 기반하며, 부수적으로 ε-softmax 행동 정책을 사용하는 표 형태 Q-학습의 L² 수렴 속도도 가중 Bellman 최적성 연산자의 새로운 유사 수축 특성을 이용하여 증명합니다.