[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CUDA-L1: Mejora de la optimización de CUDA mediante aprendizaje de refuerzo contrastivo

Created by
  • Haebom

Autor

Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum

Describir

En este artículo, presentamos el framework CUDA-L1, que proporciona una estrategia automatizada de optimización de CUDA para afrontar la creciente demanda de recursos de computación en GPU debido al desarrollo de modelos de lenguaje a gran escala. CUDA-L1, basado en aprendizaje por refuerzo, se entrena en NVIDIA A100 y alcanza una aceleración promedio de x17.7 para 250 kernels CUDA en KernelBench, y una aceleración máxima de x449. Además, aunque está entrenado específicamente para A100, muestra una excelente portabilidad en diversas arquitecturas de GPU como H100, RTX 3090, L40, H800 y H20. CUDA-L1 descubre diversas técnicas de optimización de CUDA y las combina estratégicamente para lograr un rendimiento óptimo, descubre los principios fundamentales de la optimización de CUDA y rechaza las optimizaciones que causan degradación del rendimiento. Demostramos el potencial del aprendizaje por refuerzo para transformar un LLM con un rendimiento inicial bajo en un modelo eficaz optimizado para CUDA con solo una señal de recompensa basada en la aceleración, sin necesidad de experiencia humana ni conocimiento del dominio.

Takeaways, Limitations

Takeaways:
Presentamos una nueva posibilidad para transformar LLM en un modelo efectivo optimizado para CUDA a través del aprendizaje de refuerzo.
Mayor versatilidad al garantizar una excelente portabilidad en diversas arquitecturas de GPU.
Permite la optimización automatizada de CUDA sin necesidad de experiencia humana.
Puede contribuir a mejorar la eficiencia de la GPU y a resolver problemas de escasez de recursos informáticos de la GPU.
Puede descubrir los principios fundamentales de la optimización CUDA y contribuir al descubrimiento de nuevas técnicas de optimización.
Limitations:
Este documento solo presenta resultados para un punto de referencia específico (KernelBench), por lo que el rendimiento de generalización para otros tipos de kernels CUDA requiere una verificación adicional.
Podría existir una dependencia de la arquitectura de GPU (A100) utilizada para el entrenamiento. Es necesario mejorar aún más el rendimiento de generalización en otras arquitecturas.
Se necesita más investigación sobre el rendimiento y la estabilidad cuando se aplican a aplicaciones del mundo real.
👍