Bài báo này trình bày một hệ thống hỗ trợ y tế mới để triển khai các mô hình ngôn ngữ quy mô lớn (LLM) trong các môi trường hạn chế về tài nguyên, chẳng hạn như chăm sóc sức khỏe thời gian thực. Được tối ưu hóa bằng một khuôn khổ nén đa năng, hệ thống này điều chỉnh LLM theo các miền cụ thể. Bằng cách đo lường tầm quan trọng của nơ-ron trên dữ liệu miền cụ thể, hệ thống sẽ loại bỏ mạnh mẽ các nơ-ron không liên quan, giảm kích thước mô hình mà vẫn duy trì hiệu suất. Lượng tử hóa sau khi huấn luyện sau đó được áp dụng để giảm hơn nữa mức sử dụng bộ nhớ, và các mô hình nén được đánh giá trên các tiêu chuẩn chăm sóc sức khỏe bao gồm MedMCQA, MedQA và PubMedQA. Hơn nữa, chúng tôi triển khai mô hình Gemma nén 50% và mô hình LLaMA3 nén 67% trên Jetson Orin Nano và Raspberry Pi 5, đạt được suy luận thời gian thực, tiết kiệm năng lượng trong điều kiện hạn chế về phần cứng.