# Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

### 저자

Yujuan Pang, Jiaxin Li, Xin Sheng, Ran Peng, Yong Ma

### 💡 개요

본 연구는 결정론적 결과 추론 작업에 효과적인 강화 학습 기반 검증 가능 보상(RLVR) 방법론의 프롬프트 선택 방식을 개선하고자 합니다. 기존의 훈련 정확도 분산 기반 프롬프트 선택이 불안정함을 지적하며, 신뢰할 수 있는 긍정적 앵커와 희귀 실패로부터의 명확한 부정적 학습 신호를 동시에 제공하는 '긍정-부정 페어링' 기법을 제안합니다. 이를 통해 샘플 효율성을 높이고 탐색을 억제하지 않으면서도 우수한 성능 향상을 달성했습니다.

### 🔑 시사점 및 한계

- RLVR 학습에서 단순 분산 기반 프롬프트 선택보다 '긍정-부정 페어링' 전략이 더 효과적임을 입증했습니다.

- 희귀 성공과 희귀 실패에 대한 명확한 신호를 학습에 활용함으로써 샘플 효율성을 크게 향상시킬 수 있습니다.

- 제안된 가중치 GRPO(Weighted GRPO)는 긍정적 안내와 부정적 처벌을 균형 있게 제공하여 학습 안정성과 성능을 동시에 높입니다.

- 본 연구에서 제시된 프롬프트 페어링 및 가중치 기법은 다른 RLVR 응용 분야에도 적용될 가능성이 있습니다.

- 특정 모델(Qwen2.5-Math-7B, Qwen2.5-Math-7B-Instruct) 및 특정 데이터셋에서의 성능을 검증했으며, 다양한 모델 및 작업으로 일반화하는 데 추가 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2602.03452)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
