本文重点介绍用于构建生成式人工智能 (GenAI) 应用程序的组件(包括推理服务器、对象存储、向量和图形数据库以及用户界面)如何通过基于 Web 的 API 进行互连。本文特别强调了在云环境中容器化部署这些组件的日益增长的趋势,凸显了高性能计算 (HPC) 中心对相关技术开发的需求。本文探讨了 HPC 与云计算环境的集成,并提出了一种融合计算架构,该架构集成了 HPC 和 Kubernetes 平台以运行容器化的 GenAI 工作负载。Llama 大型语言模型 (LLM) 的部署案例研究展示了如何在 Kubernetes 和 HPC 平台上使用多个容器运行时部署容器化推理服务器 (vLLM)。本文提出了 HPC 容器社区的实际考虑和机遇,并为未来的研究和工具开发提供了指导。