Towards Multi-Model LLM Schedulers: Empirical Insights into Offloading and Preemption

작성자

Haebom

카테고리

Empty

저자

Mert Yildiz, Pietro Spadaccino, Alexey Rolich, Francesca Cuomo, Andrea Baiocchi

💡 개요

본 논문은 GPU 메모리 제약 하에서 여러 LLM 모델을 효율적으로 서빙하기 위한 다중 모델 스케줄러 설계의 어려움을 다룹니다. 연구진은 레이어 오프로딩과 선제적 중단(preemption)이 LLM 성능에 미치는 영향을 경험적으로 분석하고, 모델 아키텍처, 크기, 하드웨어 플랫폼에 따른 비선형적 성능 저하와 오버헤드 변화를 규명했습니다. 이러한 분석을 바탕으로 미래 LLM 서빙 시스템이 고려해야 할 핵심 요소를 제시합니다.

🔑 시사점 및 한계

•

서로 다른 LLM 모델들이 GPU 메모리 제약으로 인한 레이어 오프로딩 및 선제적 중단에 대해 모델별로 매우 상이하고 비선형적인 성능 민감도를 보입니다.

•

선제적 중단 시 발생하는 오버헤드는 주로 모델 상태 재로드에서 기인하며, 키-값 캐시 전송보다 더 큰 영향을 미치고 모델 및 하드웨어에 따라 크게 달라집니다.

•

시퀀스 길이와 인터커넥트 대역폭은 데이터 이동 및 실행 비효율성을 증폭시키므로 스케줄러 설계 시 반드시 고려되어야 합니다.

PDF 보기

Made with Slashpage