Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints

작성자

Haebom

카테고리

Empty

저자

Ruicheng Ao, Gan Luo, David Simchi-Levi, Xinshang Wang

💡 개요

대규모 언어 모델(LLM)의 추론 비용이 매우 높으며, GPU 메모리 제약으로 인한 KV 캐시 증가 문제는 처리량과 비용에 큰 영향을 미칩니다. 본 논문은 메모리 제약 하에서 LLM 추론을 위한 온라인 스케줄링 문제를 다루며, 유체 모델을 기반으로 한 WAIT 및 Nested WAIT 알고리즘을 제안합니다. 이 알고리즘들은 메모리 초과로 인한 요청 종료를 줄이고, 특히 부하가 높거나 초과된 상황에서 지연 시간을 감소시켜 안정적인 운영 범위를 넓힙니다.

🔑 시사점 및 한계

•

LLM 추론 과정에서의 동적 메모리 증가(KV 캐시) 문제를 해결하기 위한 이론적 프레임워크와 실용적인 알고리즘을 제시합니다.

•

제안된 WAIT 및 Nested WAIT 알고리즘은 기존 방식 대비 LLM 추론 서비스의 안정적인 운영 범위를 확장하고 성능을 개선할 수 있습니다.

•

예측 불가능한 출력 길이를 가진 요청에 대한 Nested WAIT의 성능은 추가적인 안전 버퍼에 의존하며, 해당 버퍼 크기 최적화 및 다양한 모델/하드웨어 환경에서의 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage