본 논문은 사실적 콘텐츠 생성에서 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포에 있어 주요 과제인 환각(hallucination) 문제를 해결하기 위해, 장문 생성을 위한 실시간 구두 신뢰도 추정 방법인 LoVeC(Long-form Verbalized Confidence)를 제안합니다. LoVeC는 강화 학습(RL)을 사용하여 LLM이 생성된 각 문장에 수치적 신뢰도 점수를 추가하도록 훈련하여 생성의 사실성에 대한 직접적이고 해석 가능한 신호를 제공합니다. DPO, ORPO, GRPO와 같은 정책 내 및 정책 외 RL 방법을 사용하여 모델 보정을 향상시키고, 자유 형식 태깅 및 반복적 태깅이라는 두 가지 새로운 평가 설정을 도입하여 다양한 구두 신뢰도 추정 방법을 평가합니다. 세 개의 장문 QA 데이터셋에 대한 실험 결과, RL로 훈련된 모델이 더 나은 보정을 달성하고 도메인 간에 강력하게 일반화됨을 보여줍니다. 또한, 출력 디코딩에 몇몇 토큰만 추가하면 되므로 매우 효율적입니다.