Trong bài báo này, chúng tôi đề xuất Deliberative Searcher, khuôn khổ đầu tiên tích hợp hiệu chỉnh độ chắc chắn và trả lời câu hỏi dựa trên truy xuất để cải thiện độ tin cậy của các mô hình ngôn ngữ quy mô lớn (LLM). Tác nhân thực hiện phản ánh và xác minh nhiều giai đoạn trên dữ liệu Wikipedia, và được huấn luyện bằng thuật toán học tăng cường giúp tối ưu hóa độ chính xác trong điều kiện ràng buộc độ tin cậy mềm. Kết quả thực nghiệm cho thấy phương pháp đề xuất cải thiện sự liên kết giữa độ tin cậy và độ chính xác của mô hình, mang lại kết quả đầu ra đáng tin cậy hơn. Bài báo này sẽ được cập nhật liên tục.