Este artículo aborda el reto de lograr simultáneamente robustez y eficiencia de recursos, dos propiedades altamente deseables en los modelos modernos de aprendizaje automático. Demostramos que las altas tasas de aprendizaje ayudan a lograr tanto la robustez frente a correlaciones espurias como la compacidad de la red. Demostramos que las altas tasas de aprendizaje producen propiedades de representación deseables, como la utilización de características invariantes, la separabilidad de clases y la escasez de activación. A través de una variedad de conjuntos de datos de correlación espuria, modelos y optimizadores, demostramos que las altas tasas de aprendizaje logran consistentemente estas propiedades en comparación con otros hiperparámetros y métodos de regularización. Además, presentamos evidencia sólida de que el éxito de las altas tasas de aprendizaje en tareas de clasificación estándar está relacionado con su capacidad para abordar correlaciones espurias ocultas/raras en el conjunto de datos de entrenamiento. Nuestra investigación sobre los mecanismos subyacentes de este fenómeno destaca la importancia de las predicciones de error confiables en muestras con conflicto de sesgo a altas tasas de aprendizaje.