인공지능(AI) 추론 수요 증가에 따라, 특히 고등 교육 분야에서 기존 인프라를 활용한 새로운 솔루션이 부상하고 있습니다. 본 논문은 고성능 컴퓨팅(HPC)을 활용한 솔루션을 제안합니다. 특히, 동기적이고 사용자 중심적인 AI 애플리케이션의 요구사항에 적합하도록 vLLM, Slurm, Kubernetes를 슈퍼컴퓨터 RAMSES에 통합하여 LLM을 서비스하는 아키텍처를 제시합니다. 초기 벤치마크 결과는 100, 500, 1000개의 동시 요청에 대해 효율적으로 확장되며, 엔드 투 엔드 지연 시간 오버헤드가 약 500ms에 불과함을 보여줍니다.