대규모 언어 모델(LLM)은 종종 신뢰성을 떨어뜨리는 근거 없는 콘텐츠인 환각 현상을 생성한다. 대부분의 기존 연구는 환각 감지를 이진 분류 문제로 다루지만, 실제 응용 분야에서는 환각 범위를 식별해야 하므로 다단계 의사 결정 과정이 필요하다. 이에 대한 해답을 찾기 위해, Chain-of-Thought (CoT) 추론을 사용하여 사전 훈련된 모델을 평가하고, 여러 번 샘플링 시 CoT 추론이 최소한 하나의 정답을 생성할 수 있음을 확인했다. 이를 바탕으로, 범위 수준의 보상 함수를 통해 추론을 장려하는 강화 학습 프레임워크인 RL4HS를 제안한다. RL4HS는 Group Relative Policy Optimization을 기반으로 하며, 보상 불균형 문제를 완화하기 위해 Class-Aware Policy Optimization을 도입한다. RAGTruth 벤치마크(요약, 질문 응답, 데이터-텍스트 변환) 실험 결과, RL4HS는 사전 훈련된 추론 모델 및 지도 학습 기반 미세 조정보다 우수한 성능을 보였으며, 환각 범위를 감지하는 데 범위 수준 보상을 사용한 강화 학습의 필요성을 입증했다.