Este artículo presenta una técnica eficiente de optimización de modelos para resolver los problemas de consumo de energía, uso de memoria y latencia que surgen al implementar modelos de IA a gran escala en entornos con recursos limitados. Proponemos un método sistemático de correspondencia ontológica utilizando un modelo de vanguardia basado en Transformer, aprovechando la similitud semántica basada en coseno entre términos médicos no especializados y el metatesauro UMLS. Realizamos la optimización del modelo utilizando Microsoft Olive y ONNX Runtime, Intel Neural Compressor e IPEX, y la evaluamos aplicándola a dos tareas de la campaña de evaluación DEFT 2020. Como resultado, logramos un aumento promedio de 20 veces en la velocidad de inferencia y una reducción de aproximadamente el 70 % en el uso de memoria, superando el rendimiento de los modelos de vanguardia anteriores.