Burkhard Ringlein, Jan van Lunteren, Radu Stoica, Thomas Parnell
개요
본 논문은 다양한 하드웨어 아키텍처에서 LLM 추론을 가능하게 하고, 저수준 튜닝 없이도 동급 최고의 효율성을 제공하는 휴대 가능한 LLM 추론 플랫폼 개발에 대한 연구를 제시한다. NVIDIA 및 AMD GPU에서 최첨단 성능을 달성하기 위해 도메인별 JIT 컴파일 언어인 Triton을 기반으로 구축된 최첨단 페이지된 어텐션 커널을 개발했다.
시사점, 한계점
•
시사점:
◦
오픈 소스 도메인별 언어를 활용하여 다양한 GPU 벤더 간 모델 이식성을 확보할 수 있음을 입증.
◦
Triton을 사용하여 NVIDIA 및 AMD GPU에서 최첨단 성능을 달성하는 페이지된 어텐션 커널 개발.
◦
자동 튜닝 및 인기 있는 추론 서버 통합을 통해 일반적인 Triton 어텐션 커널의 성능을 향상시킴.