본 논문은 생성형 AI 워크로드의 급증에 따라 GPU와 전문화된 가속기 모두를 유연하게 활용하면서 운영 비용을 절감할 수 있는 확장 가능한 추론 시스템에 대한 필요성을 제기한다. 실시간 비용 및 용량 신호를 기반으로 이기종 가속기 간에 요청을 적응적으로 할당하는 하드웨어 비의존적 제어 루프를 제안한다. 비용 최적화 모드와 용량 최적화 모드 간의 동적 전환을 통해 낮은 지연 시간과 높은 처리량을 유지하여 변동하는 가용성 하에서 고가의 컴퓨팅 리소스를 가장 효율적으로 사용할 수 있도록 한다. Stable Diffusion 모델을 사용하여 평가한 결과, 프레임워크는 지연 시간 목표를 지속적으로 충족하고, 용량 부족 시 트래픽을 자동으로 리다이렉트하며, 가능한 경우 저렴한 가속기를 활용한다. 이러한 결과는 소프트웨어 및 하드웨어 스택 전체에 걸친 피드백 기반 배포 전략이 제한된 가속기 용량에 직면하여 탄력성을 유지하면서 조직이 생성형 AI 워크로드를 효율적으로 확장하는 데 도움이 될 수 있음을 강조한다.