본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 강화 학습 기반 프레임워크인 AutoRefine을 제안합니다. 기존의 검색 증강 추론 방법들이 무관하거나 노이즈가 많은 정보를 검색하는 문제점을 해결하기 위해, AutoRefine은 "search-and-refine-during-think" 패러다임을 도입하여 검색과 정제 과정을 반복적으로 수행합니다. 이는 모델이 답변 생성 전에 증거들을 반복적으로 필터링, 추출, 정리할 수 있도록 합니다. 또한, 답변 정확도와 함께 검색 특화 보상을 활용하여 그룹 상대 정책 최적화를 수행합니다. 단일 홉 및 다중 홉 질의응답 벤치마크 실험 결과, AutoRefine은 기존 방법들을 상당히 능가하며, 특히 복잡한 다중 홉 추론 시나리오에서 그 성능이 뛰어남을 보여줍니다. 자세한 분석을 통해 AutoRefine이 빈번하고 질 높은 검색을 수행하며 증거들을 효과적으로 종합한다는 것을 확인했습니다.