본 논문은 비동기 Q-러닝의 수렴성 분석을 개선하는 새로운 방법을 제시합니다. 기존의 스위칭 시스템 접근 방식은 엄격한 조건(예: 준단조성)을 필요로 하여 다른 강화학습 알고리즘으로 일반화하기 어려웠습니다. 본 논문에서는 p-norm을 Lyapunov 함수로 사용하는 동기 Q-러닝 수렴성 분석 연구를 기반으로, 비동기 Q-러닝과 그 매끄러운 변형 모두를 포함하는 더 일반적인 ODE 모델을 분석하는 보다 일반적이고 통합적인 수렴성 분석을 제시합니다. 이를 통해 기존의 제한적인 조건 없이도 Q-러닝과 그 변형들의 수렴성을 증명할 수 있습니다.