随着具有推理能力的LLM(LLM)的使用日益增多,本文强调了高效调度LLM推理任务对于实现低延迟和高吞吐量的重要性。为了解决传统FCFS方案遇到的队头阻塞问题,本文提出了PARS,这是一种具有提示感知能力的LLM任务调度器,它通过采用边际排序损失的成对排序来近似SJF调度。PARS专注于关键调度决策,并与最先进的LLM服务系统vLLM无缝集成。它能够根据响应长度有效地预测任务顺序,从而以最小的开销降低延迟。在多个LLM和真实推理数据集上进行的大量实验表明,PARS显著提升了性能,包括推理工作负载。此外,跨模型评估证明了该设计的通用性,即使使用在其他LLM上训练的预测器也能实现有效的调度。