2022년 11월 ChatGPT 출시 이후 오픈소스 커뮤니티를 중심으로 다양한 대규모 언어 모델(LLM)이 등장했지만, 서비스 배포에 필요한 요구사항은 종종 불분명하고 사전 평가가 어렵습니다. 본 논문에서는 보르도 대학 인리아 센터에서 수행한 다수의 실험을 통해, vLLM(대규모 언어 모델 추론 최적화를 위한 파이썬 라이브러리)을 사용하여 다양한 크기의 모델(주로 Mistral과 LLaMa)의 성능을 사용 가능한 GPU에 따라 비교 분석했습니다. 본 연구 결과는 개인 및 공공 단체가 LLM을 배포할 때, 보유한 하드웨어에 기반하여 다양한 모델의 성능을 평가하는 데 유용한 정보를 제공하며, 다양한 응용 분야에서 LLM의 채택 및 사용을 용이하게 하는 데 기여합니다.