본 논문은 대규모 언어 모델(LLM)의 효율성 향상 기법을 종합적으로 평가한 최초의 연구인 EfficientLLM을 소개한다. 48개의 GH200과 8개의 H200 GPU로 구성된 프로덕션급 클러스터에서 100개 이상의 모델-기법 조합(0.5B~72B 파라미터)을 평가하여, 모델 아키텍처 사전 학습(MQA, GQA, MLA, NSA, MoE), 미세 조정(LoRA, RSLoRA, DoRA), 추론(int4, float16 양자화) 세 가지 측면을 체계적으로 분석하였다. 메모리 사용량, 연산량 사용량, 지연 시간, 처리량, 에너지 소비량, 압축률 등 6가지 세분화된 지표를 사용하여 하드웨어 포화, 지연 시간-처리량 균형, 탄소 비용을 측정하였다.