본 논문은 다양한 지연 시간 요구 사항을 가진 애플리케이션을 가능하게 하는 대규모 언어 모델(LLM)의 널리 퍼진 채택에 대해 논의합니다. 기존의 LLM 서비스 프레임워크는 상호 작용 및 일괄 처리와 같은 조악한 작업 분리로 인해 자원 활용이 비효율적이고 세분화된 서비스 품질(QoS) 차별화에 대한 지원이 제한적입니다. 이는 운영상의 비효율성, 과도한 프로비저닝 및 트래픽 급증 시 부족한 부하 관리로 이어집니다. 본 논문에서는 공유 인프라에서 다양한 작업을 효율적으로 공동 스케줄링할 수 있는 새로운 QoS 기반 추론 서비스 시스템인 Niyama를 제시합니다. Niyama는 애플리케이션이 정확한 지연 시간 요구 사항을 지정할 수 있도록 세분화된 QoS 분류를 도입하고 실시간 시스템 상태에 따라 스케줄링 결정을 동적으로 조정합니다. LLM 추론의 예측 가능한 실행 특성을 활용하여 Niyama는 엄격한 QoS 보장을 유지하면서 전체 처리량을 향상시키는 동적 청크화 메커니즘을 구현합니다. 또한 Niyama는 공정성과 효율성을 균형 있게 조정하는 하이브리드 우선 순위 정책을 사용하고 과부하 조건에서 우아한 서비스 저하를 가능하게 하는 선택적 요청 강등을 사용합니다. 평가 결과 Niyama는 기존의 독립적인 배포에 비해 서비스 용량을 32% 증가시키는 동시에 QoS 보장을 유지합니다. 특히 극한 부하 조건에서 본 시스템은 기존 전략에 비해 SLO 위반을 10배 감소시킵니다.
시사점, 한계점
•
시사점:
◦
다양한 지연 시간 요구 사항을 가진 LLM 애플리케이션을 위한 효율적인 서비스 시스템을 제공합니다.
◦
기존의 독립적인 배포 방식보다 서비스 용량을 32% 증가시키고, 극한 부하 조건에서 SLO 위반을 10배 감소시킵니다.
◦
세분화된 QoS 분류 및 동적 스케줄링을 통해 뛰어난 부하 관리 기능을 제공합니다.
◦
동적 청크화 메커니즘을 통해 처리량을 향상시키면서 QoS 보장을 유지합니다.
•
한계점:
◦
Niyama 시스템의 실제 환경 적용 및 장기간 운영에 대한 추가적인 연구가 필요합니다.
◦
다양한 LLM 모델과 애플리케이션에 대한 일반화 가능성에 대한 추가적인 검증이 필요합니다.