Sign In

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Sharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

πŸ’‘ κ°œμš”

λ³Έ 논문은 GPU 컀널 μ΅œμ ν™”λ₯Ό μœ„ν•œ AI μ½”λ”© μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” μƒˆλ‘œμš΄ 벀치마크인 AgentKernelArenaλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬μ™€ 달리, AgentKernelArenaλŠ” 단일 LLM 호좜이 μ•„λ‹Œ 전체 μ—μ΄μ „νŠΈ μ›Œν¬ν”Œλ‘œμš°λ₯Ό ν‰κ°€ν•˜λ©°, 컀널 κ°„ μ΅œμ ν™”μ™€ 보지 λͺ»ν•œ 섀정에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯κΉŒμ§€ μΈ‘μ •ν•©λ‹ˆλ‹€. 196개의 λ‹€μ–‘ν•œ μ΅œμ ν™” μž‘μ—…μ„ ν¬ν•¨ν•˜λ©°, 이λ₯Ό 톡해 μ—μ΄μ „νŠΈμ˜ 컴파일, μ •ν™•μ„±, μ„±λŠ₯을 μ’…ν•©μ μœΌλ‘œ 평가할 수 μžˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AI μ½”λ”© μ—μ΄μ „νŠΈμ˜ GPU 컀널 μ΅œμ ν™” λŠ₯λ ₯ ν–₯상: Cursor Agent, Claude Code, Codex Agent λ“± λ‹€μ–‘ν•œ AI μ—μ΄μ „νŠΈκ°€ GPU 컀널 μ΅œμ ν™” μž‘μ—…μ—μ„œ 높은 컴파일 성곡λ₯ κ³Ό 정확도λ₯Ό λ³΄μ—¬μ£Όμ—ˆμœΌλ©°, 특히 PyTorch-to-HIP λ²ˆμ—­ μž‘μ—…μ—μ„œ μ΅œλŒ€ 6.89배의 μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ μ€‘μš”ν•œ 톡찰 제곡: HIP-to-HIP 및 Triton-to-Triton μ΅œμ ν™”λŠ” 보지 λͺ»ν•œ μž…λ ₯ ν˜•νƒœμ— λŒ€ν•΄μ„œλ„ μΌλ°˜ν™”λ˜λŠ” κ²½ν–₯을 λ³΄μ˜€μœΌλ‚˜, PyTorch-to-HIP의 경우 정확도가 크게 ν•˜λ½ν•˜μ—¬ μƒˆλ‘œμš΄ 컀널 생성 μ‹œ ν•˜λ“œμ½”λ”©λœ ν˜•νƒœλ³„ 가정이 μ‘΄μž¬ν•  κ°€λŠ₯성을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
벀치마크 및 μ—μ΄μ „νŠΈ 개발의 미래 λ°©ν–₯ μ œμ‹œ: AgentKernelArenaλŠ” λͺ¨λ“ˆμ‹ ν”„λ ˆμž„μ›Œν¬λ‘œμ„œ, λ‹€μ–‘ν•œ μ—μ΄μ „νŠΈ, μž‘μ—…, ν•˜λ“œμ›¨μ–΄μ— λŒ€ν•œ μ—„κ²©ν•œ 평가λ₯Ό μ§€μ›ν•˜λ©° ν–₯ν›„ GPU 컀널 μ΅œμ ν™” 연ꡬ λ°œμ „μ— κΈ°μ—¬ν•  κ²ƒμž…λ‹ˆλ‹€.
πŸ‘