SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips

작성자

Haebom

카테고리

Empty

저자

Jiahuan Yu, Mingtao Hu, Zichao Lin, Minjia Zhang

💡 개요

본 논문은 대규모 언어 모델(LLM) 추론 시 발생하는 지연 시간 서비스 수준 목표(SLO)와 GPU 메모리 제약 사이의 근본적인 문제를 해결하고자 합니다. 제안하는 SuperInfer 시스템은 NVLink-C2C를 통해 GPU-CPU가 긴밀하게 결합된 Superchip 아키텍처에 최적화되어 있으며, SLO를 인지하는 능동적인 회전 스케줄러인 RotaSched와 NVLink-C2C를 통한 전이중(full-duplex) 전송을 지원하는 DuplexKV를 도입합니다. 이를 통해 높은 요청률에서도 응답성을 유지하며 SLO 달성률을 크게 향상시킵니다.

🔑 시사점 및 한계

•

Superchip과 같은 고성능 하드웨어 아키텍처의 잠재력을 최대한 활용하기 위해서는 SLO를 고려한 스케줄링 및 메모리 관리의 동시 설계가 필수적입니다.

•

RotaSched와 DuplexKV를 통해 LLM 추론 시스템은 엄격한 TTFT SLO를 만족시키면서도 TBT 및 처리량 성능을 유지할 수 있음을 입증했습니다.

•

제안된 방법론은 특정 Superchip 아키텍처에 최적화되어 있어, 다양한 하드웨어 환경에서의 일반화 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage