본 논문은 Generative Artificial Intelligence (GenAI) 애플리케이션을 구축하는 데 사용되는 구성 요소(추론 서버, 객체 저장소, 벡터 및 그래프 데이터베이스, 사용자 인터페이스 등)가 웹 기반 API를 통해 상호 연결되는 방식에 주목합니다. 특히, 이러한 구성 요소가 클라우드 환경에서 컨테이너화되어 배포되는 추세에 주목하여, 고성능 컴퓨팅(HPC) 센터에서의 관련 기술 개발의 필요성을 강조합니다. 본 논문은 HPC와 클라우드 컴퓨팅 환경의 통합을 논하며, 컨테이너화된 GenAI 워크로드를 실행하는 HPC와 Kubernetes 플랫폼을 통합하는 융합 컴퓨팅 아키텍처를 제시합니다. Llama Large Language Model (LLM)의 배포 사례 연구를 통해 Kubernetes 및 HPC 플랫폼에서 여러 컨테이너 런타임을 사용하여 컨테이너화된 추론 서버(vLLM)를 배포하는 과정을 보여줍니다. 본 논문은 HPC 컨테이너 커뮤니티에 대한 실질적인 고려 사항과 기회를 제시하고, 향후 연구 및 도구 개발에 대한 지침을 제공합니다.