본 논문은 대규모 언어 모델(LLM) 기반 실시간(RT) 요청과 최선을 다하는(BE) 요청을 동시에 처리하는 하이브리드 추론 작업 부하를 위한 새로운 서빙 시스템 BROS를 제안합니다. 기존 시스템들은 RT 요청과 BE 요청을 각각 다른 머신에서 처리하여 자원 활용률이 낮은 문제점을 가지고 있지만, BROS는 RT 요청의 지연 시간 요구사항을 충족하면서 BE 요청의 처리량을 유지하기 위해 RT/BE 요청을 공동 배치하는 것을 목표로 합니다. 동적 우선순위 기반 알고리즘을 사용하여 하이브리드 RT/BE 요청 스케줄링 문제를 해결하고, 양방향 KV 캐시 관리 메커니즘을 설계하여 RT 요청과 BE 요청 간 KV 메모리를 공유함으로써 스케줄링 제약을 완화하고 자원 활용률을 향상시킵니다. 실험 결과, BROS는 기존 시스템(vLLM, TGI)보다 RT 요청의 지연 시간을 최대 74.20% 감소시키고, BE 요청의 처리량 감소는 무시할 만하며, RT 요청의 SLO 달성률을 최대 36.38배 향상시키는 것을 확인했습니다.