Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
Created by
Haebom
저자
Yaorui Shi, Sihang Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 강화 학습 기반 사후 훈련 프레임워크인 AutoRefine을 제안합니다. 기존의 검색 증강 추론 방법들이 부적절하거나 잡음이 많은 정보를 검색하는 문제점을 해결하기 위해, AutoRefine은 "검색-정제-사고"라는 새로운 패러다임을 도입합니다. 이를 통해 모델은 연속적인 검색 호출 사이에 명시적인 지식 정제 단계를 거쳐 증거를 반복적으로 필터링, 추출 및 구성한 후 답을 생성합니다. 또한, 그룹 상대 정책 최적화를 사용하여 답변 정확도 보상과 함께 맞춤형 검색 특정 보상을 통합합니다. 단일 홉 및 다중 홉 질의응답 벤치마크에 대한 실험 결과, AutoRefine은 특히 복잡한 다중 홉 추론 시나리오에서 기존 방법보다 성능이 훨씬 뛰어남을 보여줍니다. 자세한 분석을 통해 AutoRefine이 빈번하고 고품질의 검색을 수행하며 증거를 효과적으로 종합한다는 것을 보여줍니다.