본 논문은 대규모 LLM 훈련과 같은 AI 애플리케이션에 필수적인 효율적인 CUDA 커널 개발을 위해, LLM을 활용한 자동 커널 생성 및 최적화를 제안하는 CudaForge를 소개한다. CudaForge는 Coder와 Judge 두 개의 LLM 에이전트를 활용하여 CUDA 커널을 반복적으로 생성, 수정, 최적화하며 Nsight Compute (NCU) 지표와 같은 하드웨어 피드백을 통합하는 학습이 필요 없는 다중 에이전트 워크플로우를 사용한다. CudaForge는 생성된 커널의 97.6% 정확도를 달성하고 PyTorch 기준선보다 평균 1.68배의 속도 향상을 보여주었으며, 다양한 GPU 및 기본 모델에서 강력한 일반화 성능을 보였다. 또한, 기존 에이전트 방식에 비해 훨씬 저렴한 비용으로 최적화된 커널을 생성한다.
시사점, 한계점
•
시사점:
◦
학습이 필요 없는 다중 에이전트 워크플로우를 통해 비용 효율적이고 일반화 가능하며 고성능의 CUDA 커널 최적화가 가능하다.
◦
OpenAI-o3 모델을 기반으로 생성된 커널의 높은 정확도와 PyTorch 기준선 대비 상당한 속도 향상을 달성했다.
◦
A100, RTX 6000, 4090, 3090 등 다양한 GPU 및 OpenAI-o3, GPT-5, gpt-oss-120B, Claude-Sonnet-4, QwQ-32B 등 다양한 기본 모델에서 강력한 일반화 성능을 입증했다.
◦
기존 에이전트 방식 대비 훨씬 저렴한 API 비용으로 최적화된 커널 생성이 가능하다.
•
한계점:
◦
논문 자체에서 한계점에 대한 직접적인 언급은 없음.
◦
제시된 내용은 CudaForge의 성공적인 결과에 초점을 맞추고 있으며, 잠재적인 제한 사항이나 개선이 필요한 부분에 대한 논의는 포함하지 않음.