每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

低延迟 LLM 服务的提示感知调度

Created by
  • Haebom

作者

陶一恒、张一和、Matthew T. Dearing、王欣、范玉萍、兰志玲

大纲

随着具有推理能力的LLM(LLM)的使用日益增多,本文强调了高效调度LLM推理任务对于实现低延迟和高吞吐量的重要性。为了解决传统FCFS方案遇到的队头阻塞问题,本文提出了PARS,这是一种具有提示感知能力的LLM任务调度器,它通过采用边际排序损失的成对排序来近似SJF调度。PARS专注于关键调度决策,并与最先进的LLM服务系统vLLM无缝集成。它能够根据响应长度有效地预测任务顺序,从而以最小的开销降低延迟。在多个LLM和真实推理数据集上进行的大量实验表明,PARS显著提升了性能,包括推理工作负载。此外,跨模型评估证明了该设计的通用性,即使使用在其他LLM上训练的预测器也能实现有效的调度。

Takeaways, Limitations

Takeaways:
通过解决 HOL 阻塞问题来减少 LLM 推理任务的延迟。
提出了一种近似 SJF 调度的有效方法。
它可以轻松集成到VLLM系统中,增加其在实际环境中的适用性。
通过对各种 LLM 和真实世界数据集的实验证明了性能的改进。
通过跨模型评估展示泛化能力并确保模型间兼容性。
Limitations:
论文中没有具体提到Limitations。(需要补充信息)
👍