Reasoning Gym (RG)은 검증 가능한 보상을 가진 강화 학습을 위한 추론 환경 라이브러리입니다. 대수, 산술, 계산, 인지, 기하학, 그래프 이론, 논리 및 다양한 일반적인 게임을 포함한 여러 도메인에 걸쳐 100개 이상의 데이터 생성기와 검증기를 제공합니다. 기존의 대부분의 추론 데이터셋이 고정되어 있는 것과 달리, RG의 핵심 혁신은 복잡성을 조정할 수 있는 사실상 무한한 훈련 데이터를 생성하는 기능입니다. 이러한 절차적 생성 방식을 통해 다양한 난이도 수준에서 지속적인 평가가 가능합니다. 실험 결과는 RG가 추론 모델의 평가와 강화 학습 모두에서 효과적임을 보여줍니다.