Sign In

Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

Created by
  • Haebom
Category
Empty

저자

Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

개요

본 논문은 다단계 추론 및 에이전트 작업을 위한 강화 학습 방법인 Step-Wise Reinforcement Learning (SWiRL)을 제안합니다. 기존의 RLHF나 RLAIF와 달리, 단일 단계가 아닌 다단계 텍스트 생성, 추론 및 환경 상호 작용을 고려합니다. SWiRL은 다단계 추론 및 도구 사용 데이터를 반복적으로 생성하고, 이 데이터로부터 학습합니다. 각 다단계 경로를 여러 하위 경로로 분해하여 합성 데이터 필터링 및 강화 학습 최적화를 적용하는 단순한 단계별 분해 방식을 사용합니다. GSM8K, HotPotQA, CofCA, MuSiQue, BeerQA 등 다양한 다단계 도구 사용, 질의응답 및 수학적 추론 작업에서 평가되었으며, 기준 방법보다 상대 정확도가 각각 21.5%, 12.3%, 14.8%, 11.1%, 15.3% 향상되었습니다. 특히 HotPotQA (텍스트 질의응답)에서만 학습하여도 GSM8K (수학 데이터셋)의 제로샷 성능이 상대적으로 16.9% 향상되는 등, 작업 간 일반화 성능을 보였습니다.

시사점, 한계점

시사점:
다단계 추론 및 에이전트 작업을 위한 효과적인 강화 학습 방법론 제시
합성 데이터 생성 및 단계별 분해를 통한 학습 효율 향상
다양한 작업에서의 우수한 성능 및 작업 간 일반화 성능 확인
기존 단일 단계 접근 방식의 한계 극복
한계점:
제안된 방법의 계산 비용 및 복잡도에 대한 자세한 분석 부족
다양한 작업에 대한 일반화 성능의 한계 및 범위에 대한 추가 연구 필요
사용된 합성 데이터의 품질 및 편향에 대한 분석 부족
실제 환경 적용 및 확장성에 대한 추가 검증 필요
👍