Bài báo này phân tích chiều sâu và chiều rộng, hai yếu tố chính để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ trong học phần thưởng có thể kiểm chứng dựa trên học tăng cường (RLVR). Chúng tôi chỉ ra rằng thuật toán GRPO hiện tại, Limitations, tăng trọng số cho các mẫu có độ chính xác trung bình và giảm trọng số cho các mẫu có độ chính xác thấp, điều này rất quan trọng để cải thiện hiệu suất suy luận. Để giải quyết vấn đề này, chúng tôi đề xuất Lấy mẫu triển khai thích ứng độ khó (DARS), một kỹ thuật cân bằng lại trọng số thông qua các đợt triển khai nhiều giai đoạn trên các bài toán khó. Hơn nữa, chúng tôi trình bày một phương pháp để mở rộng chiều rộng của dữ liệu đào tạo bằng cách tăng đáng kể kích thước lô và sử dụng các bản cập nhật lô đầy đủ trên nhiều kỷ nguyên thay vì các lần lặp lô nhỏ của PPO. Cuối cùng, chúng tôi đề xuất DARS-B, kết hợp DARS với kích thước lô lớn và chứng minh bằng thực nghiệm rằng chiều sâu và chiều rộng góp phần cải thiện hiệu suất suy luận trong RLVR một cách độc lập.