본 논문은 의료 환경에서의 기초 모델(예: DeepSeek-R1, ChatGPT) 적용의 어려움(높은 계산 요구량 및 전문 지식 장벽)을 해결하기 위해, 경량화된 의료용 대규모 언어 모델 아키텍처를 제시합니다. 이는 지식 획득, 모델 압축, 계산 향상이라는 3차원 최적화를 통해 이루어집니다. DeepSeek-R1-Distill-70B에서 DeepSeek-R1-Distill-7B로의 지식 전이 파이프라인을 Low-Rank Adaptation (LoRA)을 사용하여 설계하여 정확한 의학 지식을 유지하고, 4비트 양자화 및 혼합 정밀도 전략을 통해 모델 압축을 달성하면서 의학적 추론 능력을 유지합니다. 추론 프레임워크는 Flash Attention 가속 및 연속 배치 처리와 다양한 의료 질문을 위한 특수 프롬프트 템플릿을 통합합니다. 실험 결과, USMLE 시험에서 92.1%의 정확도를 유지하면서 메모리 소비량은 64.7%, 추론 지연 시간은 12.4% 감소시켰습니다. 이는 자원 제약이 있는 의료 환경에서 고급 언어 모델의 배포를 위한 실용적인 해결책을 제공하여 AI 지원 의료의 접근성을 확대합니다.