Este artículo analiza la profundidad y la amplitud, dos factores clave para mejorar el rendimiento de inferencia de modelos de lenguaje en el aprendizaje de recompensa verificable basado en aprendizaje de refuerzo (RLVR). Señalamos que el algoritmo GRPO existente, Limitations, sobrepondera las muestras con precisión media y subpondera las muestras de baja precisión, lo cual es crucial para mejorar el rendimiento de inferencia. Para abordar esto, proponemos el Muestreo de Despliegue Adaptativo a la Dificultad (DARS), una técnica que reequilibra los pesos a través de despliegues de múltiples etapas en problemas difíciles. Además, presentamos un método para expandir la amplitud de los datos de entrenamiento al aumentar significativamente el tamaño del lote y usar actualizaciones de lote completo en múltiples épocas en lugar de las iteraciones de minilotes de PPO. Finalmente, proponemos DARS-B, que combina DARS con tamaños de lote grandes, y demostramos experimentalmente que la profundidad y la amplitud contribuyen independientemente a mejorar el rendimiento de inferencia en RLVR.