En este artículo, presentamos el framework CUDA-L1, que proporciona una estrategia automatizada de optimización de CUDA para afrontar la creciente demanda de recursos de computación en GPU debido al desarrollo de modelos de lenguaje a gran escala. CUDA-L1, basado en aprendizaje por refuerzo, se entrena en NVIDIA A100 y alcanza una aceleración promedio de x17.7 para 250 kernels CUDA en KernelBench, y una aceleración máxima de x449. Además, aunque está entrenado específicamente para A100, muestra una excelente portabilidad en diversas arquitecturas de GPU como H100, RTX 3090, L40, H800 y H20. CUDA-L1 descubre diversas técnicas de optimización de CUDA y las combina estratégicamente para lograr un rendimiento óptimo, descubre los principios fundamentales de la optimización de CUDA y rechaza las optimizaciones que causan degradación del rendimiento. Demostramos el potencial del aprendizaje por refuerzo para transformar un LLM con un rendimiento inicial bajo en un modelo eficaz optimizado para CUDA con solo una señal de recompensa basada en la aceleración, sin necesidad de experiencia humana ni conocimiento del dominio.