Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Teola: Towards End-to-End Optimization of LLM-based Applications

Created by
  • Haebom

저자

Xin Tan, Yimin Jiang, Yitao Yang, Hong Xu

개요

본 논문은 대규모 언어 모델(LLM) 기반 애플리케이션의 종단 간 지연 시간 최적화에 초점을 맞추고 있습니다. 기존 프레임워크는 과립화된 작업 모듈을 사용하여 최적화를 수행하지만, 이는 각 모듈 내에서만 최적화를 제한하고 최적이 아닌 스케줄링 결정을 초래합니다. 본 논문에서는 작업 기본 요소를 기본 단위로 사용하고 각 쿼리의 워크플로우를 기본 요소 수준의 데이터 흐름 그래프로 나타내는 미세 입자 종단 간 오케스트레이션을 제안합니다. 이를 통해 훨씬 더 큰 설계 공간을 명시적으로 노출하고, 서로 다른 모듈의 기본 요소 간 병렬화 및 파이프라이닝에서 최적화를 가능하게 하며, 애플리케이션 수준의 성능을 향상시키기 위해 스케줄링을 향상시킵니다. 이러한 방식을 구현하는 새로운 오케스트레이션 프레임워크인 Teola를 구축했습니다. 다양한 인기 있는 LLM 애플리케이션에 대한 포괄적인 실험을 통해 Teola가 기존 시스템보다 최대 2.09배의 속도 향상을 달성할 수 있음을 보여줍니다. 소스 코드는 https://github.com/NetX-lab/Ayo 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
LLM 기반 애플리케이션의 종단 간 지연 시간을 효과적으로 줄이는 새로운 미세 입자 오케스트레이션 기법을 제시합니다.
기존의 과립화된 오케스트레이션 방식보다 훨씬 향상된 성능(최대 2.09x 속도 향상)을 달성합니다.
다양한 LLM 애플리케이션에 적용 가능한 일반적인 프레임워크를 제공합니다.
오픈소스 코드를 공개하여 연구의 재현성과 활용성을 높였습니다.
한계점:
Teola의 성능 향상은 특정 LLM 애플리케이션과 하드웨어 환경에 따라 달라질 수 있습니다.
더 복잡하고 다양한 LLM 애플리케이션에 대한 추가적인 실험이 필요합니다.
Teola의 확장성과 안정성에 대한 추가적인 연구가 필요합니다.
👍