대규모 언어 모델(LLM)의 급격한 확장은 교육을 넘어 총 수명 주기 소비를 지배하는 대규모 추론 워크로드까지 전례 없는 에너지 수요를 발생시켰습니다. 이러한 모델을 배포하려면 에너지 집약적인 GPU 인프라가 필요하며, 일부 경우에는 데이터 센터에 원자력 발전을 공급할 계획까지 세워졌습니다. 이러한 중요성 증가에도 불구하고, 추론 에너지 소비에 대한 체계적인 분석은 제한적입니다. 이 연구에서는 소규모 오픈 소스 모델부터 최첨단 시스템에 이르기까지 21개의 GPU 구성과 155개의 모델 아키텍처에서 32,500개 이상의 측정을 포함하는 대규모 측정 기반 연구를 제시합니다. vLLM 추론 엔진을 사용하여 프롬프트 수준에서 에너지 사용량을 정량화하고 아키텍처 및 운영 요인이 에너지 수요를 어떻게 형성하는지 파악합니다. 이러한 통찰력을 바탕으로 보이지 않는 아키텍처와 하드웨어에서 추론 에너지 소비를 정확하게 추정하는 예측 모델을 개발하고, 생성형 AI의 환경적 영향을 인식시키기 위해 이를 브라우저 확장으로 구현합니다.