Teola: Towards End-to-End Optimization of LLM-based Applications
Created by
Haebom
저자
Xin Tan, Yimin Jiang, Yitao Yang, Hong Xu
개요
본 논문은 대규모 언어 모델(LLM) 기반 애플리케이션의 종단 간 지연 시간 최적화에 초점을 맞추고 있습니다. 기존 프레임워크는 과립화된 작업 모듈을 사용하여 최적화를 수행하지만, 이는 각 모듈 내에서만 최적화를 제한하고 최적이 아닌 스케줄링 결정을 초래합니다. 본 논문에서는 작업 기본 요소를 기본 단위로 사용하고 각 쿼리의 워크플로우를 기본 요소 수준의 데이터 흐름 그래프로 나타내는 미세 입자 종단 간 오케스트레이션을 제안합니다. 이를 통해 훨씬 더 큰 설계 공간을 명시적으로 노출하고, 서로 다른 모듈의 기본 요소 간 병렬화 및 파이프라이닝에서 최적화를 가능하게 하며, 애플리케이션 수준의 성능을 향상시키기 위해 스케줄링을 향상시킵니다. 이러한 방식을 구현하는 새로운 오케스트레이션 프레임워크인 Teola를 구축했습니다. 다양한 인기 있는 LLM 애플리케이션에 대한 포괄적인 실험을 통해 Teola가 기존 시스템보다 최대 2.09배의 속도 향상을 달성할 수 있음을 보여줍니다. 소스 코드는 https://github.com/NetX-lab/Ayo 에서 확인할 수 있습니다.