본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 강화 학습 기반 후속 학습 프레임워크인 AutoRefine을 제안합니다. 기존의 검색 증강 추론 방법들이 부정확하거나 무관한 정보를 가져오는 문제점을 해결하기 위해, AutoRefine은 "search-and-refine-during-think" 패러다임을 도입하여 검색과 정제 과정을 반복적으로 수행합니다. 이는 모델이 답변 생성 전에 증거를 걸러내고, 추출하고, 구성할 수 있도록 합니다. 또한, 답변 정확도 보상과 함께 검색 특화 보상을 그룹 상대 정책 최적화(group relative policy optimization)를 사용하여 통합합니다. 단일 홉 및 다중 홉 질의응답 벤치마크 실험 결과, AutoRefine은 특히 복잡한 다중 홉 추론 시나리오에서 기존 방법들을 능가하는 성능을 보였으며, 자주적이고 질 높은 검색과 효과적인 증거 종합을 통해 성능 향상을 달성했습니다.