# Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

### 저자

Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

### 개요

본 논문은 다단계 추론 및 에이전트 작업을 위한 강화 학습 방법인 Step-Wise Reinforcement Learning (SWiRL)을 제안합니다. 기존의 RLHF나 RLAIF와 달리, 단일 단계가 아닌 다단계 텍스트 생성, 추론 및 환경 상호 작용을 고려합니다.  SWiRL은 다단계 추론 및 도구 사용 데이터를 반복적으로 생성하고, 이 데이터로부터 학습합니다.  각 다단계 경로를 여러 하위 경로로 분해하여 합성 데이터 필터링 및 강화 학습 최적화를 적용하는 단순한 단계별 분해 방식을 사용합니다. GSM8K, HotPotQA, CofCA, MuSiQue, BeerQA 등 다양한 다단계 도구 사용, 질의응답 및 수학적 추론 작업에서 평가되었으며, 기준 방법보다 상대 정확도가 각각 21.5%, 12.3%, 14.8%, 11.1%, 15.3% 향상되었습니다. 특히 HotPotQA (텍스트 질의응답)에서만 학습하여도 GSM8K (수학 데이터셋)의 제로샷 성능이 상대적으로 16.9% 향상되는 등, 작업 간 일반화 성능을 보였습니다.

### 시사점, 한계점

- **시사점:**

    - 다단계 추론 및 에이전트 작업을 위한 효과적인 강화 학습 방법론 제시

    - 합성 데이터 생성 및 단계별 분해를 통한 학습 효율 향상

    - 다양한 작업에서의 우수한 성능 및 작업 간 일반화 성능 확인

    - 기존 단일 단계 접근 방식의 한계 극복

- **한계점:**

    - 제안된 방법의 계산 비용 및 복잡도에 대한 자세한 분석 부족

    - 다양한 작업에 대한 일반화 성능의 한계 및 범위에 대한 추가 연구 필요

    - 사용된 합성 데이터의 품질 및 편향에 대한 분석 부족

    - 실제 환경 적용 및 확장성에 대한 추가 검증 필요

[PDF 보기](https://arxiv.org/pdf/2504.04736)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
