Este artículo propone ENSI, un novedoso marco no interactivo para la inferencia segura en modelos de lenguaje a gran escala (LLM). Basado en el principio de codiseño de protocolos criptográficos y arquitecturas LLM, ENSI integra el esquema CKKS con BitNet, una variante ligera de LLM, para reducir significativamente la complejidad computacional de la multiplicación de matrices cifradas. Además, para abordar la carga computacional de softmax bajo cifrado homomórfico (HE), proponemos un enfoque alternativo que elimina la necesidad de reentrenamiento mediante la integración del mecanismo de atención sigmoidea con HE. Asimismo, integramos la operación de bootstrap en el proceso RMSNorm, refrescando eficientemente los textos cifrados y reduciendo significativamente la frecuencia de las costosas llamadas de bootstrap. Los resultados experimentales muestran que ENSI mejora la velocidad de multiplicación de matrices aproximadamente 8 veces en las CPU y la velocidad de inferencia de softmax en 2,6 veces en comparación con los métodos más avanzados, a la vez que reduce la tasa de bootstrap al 1%.