SHARP는 과학, 기술, 공학, 수학(STEM) 분야에서 대규모 추론 모델(LRM)의 강화 학습 훈련을 위한 고품질, 다양하고 검증 가능한 문제 집합 부족 문제를 해결하기 위해 제안된 통합적 접근 방식입니다. 기존의 Chain-of-Thought 프롬프팅과 같은 합성 방법들은 과도하게 단순화되거나 검증이 어려운 데이터를 생성하는 경향이 있으므로, 복잡한 작업에 대한 모델의 발전을 제한합니다. SHARP는 대학원 및 올림피아드 수준의 난이도, 엄격한 논리적 일관성, 모호하지 않고 검증 가능한 답변을 목표로 하는 자기 정렬 원칙과 주제 다양성과 문제 생성에 대한 세밀한 제어를 보장하는 3단계 프레임워크(정렬, 인스턴스화, 추론)를 포함합니다. 최첨단 LRM을 활용하여 어려운 STEM 질문을 추론하고 검증한 다음, 검증 가능한 보상 신호를 통해 모델의 추론을 개선하기 위해 강화 학습 루프를 사용합니다. GPQA와 같은 벤치마크에서의 실험을 통해 SHARP로 강화된 훈련이 기존 방법보다 훨씬 우수하며, 복잡한 추론 정확도를 크게 향상시키고 LRM 성능을 전문가 수준에 가깝게 끌어올리는 것을 보여줍니다. SHARP 전략, 프레임워크 설계, 엔드투엔드 구현, LRM 추론 능력 향상에 대한 효과성에 대한 실험적 평가가 주요 기여입니다.