StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization
Created by
Haebom
저자
Ziliang Wang, Xuhui Zheng, Kang An, Cijun Ouyang, Jialu Cai, Yuhang Wang, Yichao Wu
개요
본 논문은 다단계 추론을 위한 효율적인 대규모 언어 모델(LLM) 기반 에이전트가 반복적으로 고부가가치 외부 지식을 획득해야 함을 다룹니다. 기존 연구는 강화 학습(RL)을 이용하여 검색 기반 문서 검색을 수행하는 LLM을 훈련하여 질의응답(QA) 성능을 향상시켰지만, 전역 신호만으로는 희소한 보상으로 인해 복잡한 다단계 QA에서는 성능이 저조했습니다. 이를 해결하기 위해 본 논문은 단계적 근접 정책 최적화 방법으로 훈련된 검색 LLM을 위한 StepSearch 프레임워크를 제시합니다. StepSearch는 정보 이득 및 중복 패널티를 기반으로 더 풍부하고 상세한 중간 검색 보상과 토큰 수준의 프로세스 감독을 통해 각 검색 단계를 더 잘 안내합니다. 오픈소스 데이터셋을 기반으로 일련의 데이터 파이프라인 방법을 통해 하위 질문 수준 검색 경로를 포함하는 세분화된 질의응답 데이터셋을 구성했습니다. 표준 다단계 QA 벤치마크에서 전역 보상 기준선보다 성능이 크게 향상되어, 19,000개의 훈련 데이터만 사용하여 3B 및 7B 모델에 대해 RL 기준선 검색과 비교하여 각각 11.2% 및 4.2%의 절대적 성능 향상을 달성했습니다. 이는 심층 검색 LLM 최적화에서 세분화된 단계적 감독의 효과를 보여줍니다. 구현은 https://github.com/zxh20001117/StepSearch 에서 공개적으로 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
다단계 QA에서의 LLM 성능 향상을 위한 새로운 프레임워크인 StepSearch 제시.
◦
단계적 근접 정책 최적화와 세분화된 보상 메커니즘을 통한 효과적인 LLM 훈련 방법 제시.