Este artículo presenta un novedoso sistema de asistencia médica para implementar modelos lingüísticos a gran escala (LLM) en entornos con recursos limitados, como la atención médica en tiempo real. Optimizado mediante un marco de compresión de propósito general, el sistema adapta los LLM a dominios específicos. Al medir la importancia de las neuronas en datos específicos del dominio, elimina de forma agresiva las neuronas irrelevantes, reduciendo el tamaño del modelo y manteniendo el rendimiento. Posteriormente, se aplica una cuantificación posterior al entrenamiento para reducir aún más el uso de memoria, y los modelos comprimidos se evalúan en parámetros de referencia para la atención médica, como MedMCQA, MedQA y PubMedQA. Además, implementamos un modelo Gemma comprimido al 50 % y un modelo LLaMA3 comprimido al 67 % en un Jetson Orin Nano y una Raspberry Pi 5, logrando una inferencia en tiempo real y energéticamente eficiente bajo restricciones de hardware.