본 논문에서는 대규모 언어 모델(LLM)의 신뢰성 향상을 위해, 확실성 보정과 검색 기반 질의응답을 통합한 최초의 프레임워크인 Deliberative Searcher를 제안합니다. 이 에이전트는 위키피디아 데이터를 기반으로 다단계 반성 및 검증을 수행하며, 부드러운 신뢰성 제약 조건 하에서 정확도를 최적화하는 강화 학습 알고리즘으로 훈련됩니다. 실험 결과, 제안된 방법은 모델의 신뢰도와 정확성 간의 정렬을 향상시켜 더 신뢰할 수 있는 출력을 생성함을 보여줍니다. 본 논문은 지속적으로 업데이트될 예정입니다.