Los modelos de lenguaje a gran escala (LLM) son vulnerables a las alucinaciones debido a la falta de coincidencia en la autoconciencia al procesar consultas que cruzan los límites de conocimiento. Las estrategias de mitigación existentes utilizan la estimación de la incertidumbre o mecanismos de rechazo de consultas, pero presentan una baja eficiencia computacional y usabilidad. En este artículo, proponemos un marco de modelado explícito de límites de conocimiento (EKBM) que integra sistemas de inferencia rápidos y lentos para equilibrar la fiabilidad y la usabilidad. El marco utiliza primero un modelo rápido para generar respuestas con indicación de confianza, lo que permite utilizar resultados de alta confianza de inmediato. Por otro lado, las predicciones inciertas activan un modelo de refinamiento lento para mejorar la precisión. Para adaptar el comportamiento del modelo al objetivo propuesto, proponemos un proceso de aprendizaje híbrido para mejorar la autoconciencia sin comprometer el rendimiento de la tarea. Los resultados de la evaluación en la tarea de seguimiento del estado de la conversación muestran que EKBM logra una mayor fiabilidad del modelo que el modelo base basado en la incertidumbre. Un análisis posterior muestra que el refinamiento mejora significativamente la precisión, manteniendo una baja sobrecarga computacional. El marco equilibra eficazmente la precisión y la practicidad al establecer un paradigma escalable para implementar LLM confiables en aplicaciones sensibles a errores.