본 논문은 현대 AI 추론 시스템에서 GPU 성능을 최대화하기 위한 LLM 기반 다중 에이전트 시스템을 활용하는 연구를 다룹니다. 기존의 커널 개발 및 모델 컴파일러 접근 방식의 대안으로, 다중 에이전트 시스템이 효과적인 튜닝을 수행할 수 있음을 보입니다. 특히, 이 연구는 다중 에이전트 PyTorch 최적화 시스템을 비교하기 위한 논리적 프레임워크를 제시하고, 오류 수정 에이전트와 결합된 exploit-heavy 전략이 가장 우수한 성능을 보임을 밝힙니다. 또한, 최적화 단계의 세분성과 성능 간의 상관관계를 확인했으며, KernelBench 벤치마크에서 H100 GPU 기준 평균 2.88배의 속도 향상을 달성했습니다.