Cet article présente un nouveau système d'assistance médicale permettant de déployer des modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées, comme les soins de santé en temps réel. Optimisé grâce à un framework de compression polyvalent, le système adapte les LLM à des domaines spécifiques. En mesurant l'importance des neurones sur des données spécifiques à un domaine, il supprime de manière ciblée les neurones non pertinents, réduisant ainsi la taille du modèle tout en maintenant les performances. Une quantification post-apprentissage est ensuite appliquée pour réduire davantage l'utilisation de la mémoire, et les modèles compressés sont évalués sur des benchmarks de santé tels que MedMCQA, MedQA et PubMedQA. De plus, nous déployons un modèle Gemma compressé à 50 % et un modèle LLaMA3 compressé à 67 % sur un Jetson Orin Nano et un Raspberry Pi 5, permettant une inférence en temps réel et économe en énergie sous contraintes matérielles.