Este artículo aborda la necesidad de estrategias automatizadas de optimización de CUDA debido al rápido aumento de los recursos de computación de la GPU gracias al desarrollo de modelos de lenguaje a gran escala, y presenta CUDA-L1, un marco de optimización automatizada de CUDA basado en aprendizaje por refuerzo. CUDA-L1 se entrena en NVIDIA A100 y alcanza una aceleración promedio de x17.7 y una aceleración máxima de x449 para 250 kernels CUDA en KernelBench. Además, aunque se entrena específicamente para A100, muestra una excelente portabilidad en diversas arquitecturas de GPU como H100, RTX 3090, L40, H800 y H20. CUDA-L1 presenta varias características notables, como el descubrimiento y la combinación estratégica de diversas técnicas de optimización de CUDA para lograr un rendimiento óptimo, la revelación de los principios fundamentales de la optimización de CUDA y el rechazo de optimizaciones que causan degradación del rendimiento. Demostramos que es posible transformar un LLM de bajo rendimiento en una herramienta eficaz de optimización de CUDA utilizando únicamente señales de recompensa basadas en la aceleración, sin necesidad de experiencia humana ni conocimiento del dominio.