每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

在 HPC 中心部署容器化 GenAI 服务的经验

Created by
  • Haebom

作者

安吉尔·M·贝尔特雷、杰夫·奥格登、凯文·佩德雷蒂

大纲

本文重点介绍用于构建生成式人工智能 (GenAI) 应用程序的组件(包括推理服务器、对象存储、向量和图形数据库以及用户界面)如何通过基于 Web 的 API 进行互连。本文特别强调了在云环境中容器化部署这些组件的日益增长的趋势,凸显了高性能计算 (HPC) 中心对相关技术开发的需求。本文探讨了 HPC 与云计算环境的集成,并提出了一种融合计算架构,该架构集成了 HPC 和 Kubernetes 平台以运行容器化的 GenAI 工作负载。Llama 大型语言模型 (LLM) 的部署案例研究展示了如何在 Kubernetes 和 HPC 平台上使用多个容器运行时部署容器化推理服务器 (vLLM)。本文提出了 HPC 容器社区的实际考虑和机遇,并为未来的研究和工具开发提供了指导。

Takeaways,Limitations

Takeaways:
通过分享在我们的 HPC 中心部署 GenAI 工作负载的实践经验,我们提供了集成 HPC 和云计算环境的实用指南。
我们提出了一种用于执行容器化 GenAI 工作负载的融合计算架构,有助于建立可重复的研究环境。
Llama LLM 部署案例研究展示了容器技术在 Kubernetes 和 HPC 平台上的适用性。
我们为 HPC 容器社区提出了实际的考虑和机会,并提出了未来的研究方向。
Limitations:
局限于特定LLM模型(Llama)和特定容器运行时环境的案例研究,普遍性的结论可能有限。
需要有关具体架构和实现细节的更多信息,并且可能在实际应用中带来额外的挑战。
需要考虑到 HPC 环境的具体特征的额外性能评估和优化方法。
👍