Este artículo presenta un enfoque novedoso para mejorar el análisis de convergencia del aprendizaje Q asíncrono. El análisis actual, basado en el marco de sistemas de conmutación, requiere condiciones estrictas (p. ej., semimonotonía), lo que dificulta su generalización. En este artículo, basándonos en el análisis de convergencia del aprendizaje Q síncrono utilizando la norma $p$, proponemos un método de análisis más general e integrado que puede gestionar tanto el aprendizaje Q asíncrono como su variante (aprendizaje Q suave). Este método puede gestionar modelos EDO generales utilizando un marco más simple.