En este artículo, proponemos Deliberative Searcher, el primer marco que integra corrección de certeza y respuesta a preguntas basada en la recuperación para mejorar la fiabilidad de los modelos lingüísticos a gran escala (LLM). El agente realiza reflexión y verificación en múltiples etapas sobre datos de Wikipedia y se entrena con un algoritmo de aprendizaje por refuerzo que optimiza la precisión bajo restricciones de confianza blandas. Los resultados experimentales muestran que el método propuesto mejora la alineación entre la confianza y la precisión del modelo, lo que resulta en resultados más fiables. Este artículo se actualizará continuamente.