본 논문은 다단계 추론 및 에이전트 작업을 위한 강화 학습 방법인 Step-Wise Reinforcement Learning (SWiRL)을 제안합니다. 기존의 RLHF나 RLAIF와 달리, 단일 단계가 아닌 다단계 텍스트 생성, 추론 및 환경 상호 작용을 고려합니다. SWiRL은 다단계 추론 및 도구 사용 데이터를 반복적으로 생성하고, 이 데이터로부터 학습합니다. 각 다단계 경로를 여러 하위 경로로 분해하여 합성 데이터 필터링 및 강화 학습 최적화를 적용하는 단순한 단계별 분해 방식을 사용합니다. GSM8K, HotPotQA, CofCA, MuSiQue, BeerQA 등 다양한 다단계 도구 사용, 질의응답 및 수학적 추론 작업에서 평가되었으며, 기준 방법보다 상대 정확도가 각각 21.5%, 12.3%, 14.8%, 11.1%, 15.3% 향상되었습니다. 특히 HotPotQA (텍스트 질의응답)에서만 학습하여도 GSM8K (수학 데이터셋)의 제로샷 성능이 상대적으로 16.9% 향상되는 등, 작업 간 일반화 성능을 보였습니다.