AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

작성자

Haebom

카테고리

Empty

저자

Sharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

💡 개요

본 논문은 GPU 커널 최적화를 위한 AI 코딩 에이전트의 성능을 평가하는 새로운 벤치마크인 AgentKernelArena를 제안합니다. 기존 벤치마크와 달리, AgentKernelArena는 단일 LLM 호출이 아닌 전체 에이전트 워크플로우를 평가하며, 커널 간 최적화와 보지 못한 설정에 대한 일반화 성능까지 측정합니다. 196개의 다양한 최적화 작업을 포함하며, 이를 통해 에이전트의 컴파일, 정확성, 성능을 종합적으로 평가할 수 있습니다.

🔑 시사점 및 한계

•

AI 코딩 에이전트의 GPU 커널 최적화 능력 향상: Cursor Agent, Claude Code, Codex Agent 등 다양한 AI 에이전트가 GPU 커널 최적화 작업에서 높은 컴파일 성공률과 정확도를 보여주었으며, 특히 PyTorch-to-HIP 번역 작업에서 최대 6.89배의 성능 향상을 달성했습니다.

•

일반화 성능에 대한 중요한 통찰 제공: HIP-to-HIP 및 Triton-to-Triton 최적화는 보지 못한 입력 형태에 대해서도 일반화되는 경향을 보였으나, PyTorch-to-HIP의 경우 정확도가 크게 하락하여 새로운 커널 생성 시 하드코딩된 형태별 가정이 존재할 가능성을 시사합니다.

•

벤치마크 및 에이전트 개발의 미래 방향 제시: AgentKernelArena는 모듈식 프레임워크로서, 다양한 에이전트, 작업, 하드웨어에 대한 엄격한 평가를 지원하며 향후 GPU 커널 최적화 연구 발전에 기여할 것입니다.

PDF 보기

Made with Slashpage