본 논문에서는 대규모 언어 모델(LLM)의 추론 능력 향상을 위해, 외부 자원을 질의하는 검색 증강 추론 방식의 한계를 극복하는 새로운 강화 학습 기반 후속 학습 프레임워크인 AutoRefine을 제안합니다. AutoRefine은 '검색-정제-사고' 패러다임을 채택하여, 연속적인 검색 호출 사이에 명시적인 지식 정제 단계를 도입함으로써 모델이 답변 생성 전에 증거를 반복적으로 필터링, 추출 및 구성할 수 있도록 합니다. 또한, 그룹 상대 정책 최적화를 사용하여 답변 정확도 보상과 함께 맞춤형 검색 관련 보상을 통합합니다. 단일 홉 및 다중 홉 질의응답 벤치마크 실험 결과, AutoRefine은 특히 복잡한 다중 홉 추론 시나리오에서 기존 방법보다 성능이 크게 향상됨을 보여줍니다. 자세한 분석을 통해 AutoRefine이 빈번하고 높은 품질의 검색을 수행하고 증거를 효과적으로 종합한다는 것을 보여줍니다.