본 논문은 대규모 언어 모델(LLM) 추론의 전력 소비 연구를 위한 최초의 경량화된 확장 가능한 벤치마크인 TokenPowerBench를 소개합니다. TokenPowerBench는 모델 선택, 프롬프트 세트 및 추론 엔진을 포괄하는 선언적 구성 인터페이스, 특수 전력 측정기 없이 GPU, 노드 및 시스템 수준 전력을 캡처하는 측정 계층, 그리고 각 요청의 prefill 및 decode 단계에 에너지를 할당하는 위상 정렬 메트릭 파이프라인을 결합합니다. 이를 통해 사용자들은 배치 크기, 컨텍스트 길이, 병렬 처리 전략 및 양자화와 같은 설정을 변경하여 토큰당 줄(joules) 및 기타 에너지 효율성 메트릭에 미치는 영향을 빠르게 평가할 수 있습니다. Llama, Falcon, Qwen, Mistral 등 4가지 주요 모델 시리즈에 대해 TokenPowerBench를 평가했으며, 10억 개의 매개변수부터 Llama3-405B 모델까지 실험을 수행했습니다. TokenPowerBench는 LLM 서비스 배포 시 전력 소비를 측정하고, 운영 비용을 예측하며, 지속 가능성 목표를 달성하는 데 도움을 주기 위해 오픈 소스로 제공됩니다.