이 논문은 챗봇 완성 이상의 다양한 혁신적인 추론 시간 스케일링 및 심층 추론 기술을 포함하는 클라이언트의 발전에 맞춰, 추론 서버의 인터페이스를 일반화하기 위해 "스팬 쿼리"를 제안한다. 챗, RAG, 추론 시간 스케일링, 에이전트 워크로드가 모두 스팬 쿼리로 표현될 수 있음을 보이며, 입력 순서가 중요한지 여부에 따라 차이점을 분석한다. 스팬 쿼리 구문과 의미를 설명하고, KV 캐시 지역성을 향상시키기 위해 자동 최적화하는 방법을 제시한다. vLLM에 대한 작은 변경(492줄)을 통해 스팬 쿼리의 고성능 실행을 가능하게 하며, 이를 통해 두 가지 비 챗 사용 사례에서 TTFT를 10-20배 줄일 수 있음을 입증한다. 또한, 주의 집중 지역성을 개선하여 "중간 손실 문제"를 방지하는 방법을 제시하며, 주의 집중 최적화된 스팬 쿼리가 20억 개 파라미터 모델에서 80억 개 파라미터 모델을 사용하는 기존 추론 서버보다 훨씬 뛰어난 정확도를 달성함을 보여준다.