본 논문은 대규모 AI 모델의 자원 제약 환경 배포 시 발생하는 에너지 소모, 메모리 사용량, 지연 시간 문제를 해결하기 위해 효율적인 모델 최적화 기법을 제시합니다. 의료 분야 비전문가 용어와 UMLS Metathesaurus 간의 코사인 기반 의미 유사도를 활용하여, 최첨단 Transformer 기반 모델을 이용한 체계적인 온톨로지 정합 방법을 제안합니다. Microsoft Olive와 ONNX Runtime, Intel Neural Compressor, IPEX를 활용하여 모델 최적화를 수행하고, DEFT 2020 평가 캠페인의 두 가지 과제에 적용하여 평가합니다. 그 결과, 기존 최고 성능을 능가하면서 추론 속도는 평균 20배 향상, 메모리 사용량은 약 70% 감소시키는 결과를 얻었습니다.