Este artículo aborda los desafíos de equilibrar el rendimiento del modelo, la complejidad computacional y las limitaciones de memoria al implementar redes neuronales cuantificadas (QNN) en dispositivos con recursos limitados (p. ej., microcontroladores). Tiny Machine Learning (TinyML) aborda estos desafíos integrando avances en algoritmos de aprendizaje automático, aceleración de hardware y optimización de software para ejecutar eficientemente redes neuronales profundas en sistemas embebidos. Este artículo introduce la cuantificación desde una perspectiva centrada en el hardware y revisa sistemáticamente las técnicas esenciales de cuantificación utilizadas para acelerar los modelos de aprendizaje profundo para aplicaciones embebidas, centrándose en las compensaciones críticas entre el rendimiento del modelo y las capacidades del hardware. Además, evaluamos los marcos de software y las plataformas de hardware existentes diseñados específicamente para soportar la ejecución de QNN en microcontroladores, destacando los desafíos actuales y las prometedoras direcciones futuras en el campo en rápida evolución de la implementación de QNN.