Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Prompts to Power: Measuring the Energy Footprint of LLM Inference

Created by
  • Haebom
Category
Empty

저자

Francisco Caravaca, Angel Cuevas, Ruben Cuevas

개요

대규모 언어 모델(LLM)의 급격한 확장은 교육을 넘어 총 수명 주기 소비를 지배하는 대규모 추론 워크로드까지 전례 없는 에너지 수요를 발생시켰습니다. 이러한 모델을 배포하려면 에너지 집약적인 GPU 인프라가 필요하며, 일부 경우에는 데이터 센터에 원자력 발전을 공급할 계획까지 세워졌습니다. 이러한 중요성 증가에도 불구하고, 추론 에너지 소비에 대한 체계적인 분석은 제한적입니다. 이 연구에서는 소규모 오픈 소스 모델부터 최첨단 시스템에 이르기까지 21개의 GPU 구성과 155개의 모델 아키텍처에서 32,500개 이상의 측정을 포함하는 대규모 측정 기반 연구를 제시합니다. vLLM 추론 엔진을 사용하여 프롬프트 수준에서 에너지 사용량을 정량화하고 아키텍처 및 운영 요인이 에너지 수요를 어떻게 형성하는지 파악합니다. 이러한 통찰력을 바탕으로 보이지 않는 아키텍처와 하드웨어에서 추론 에너지 소비를 정확하게 추정하는 예측 모델을 개발하고, 생성형 AI의 환경적 영향을 인식시키기 위해 이를 브라우저 확장으로 구현합니다.

시사점, 한계점

대규모 언어 모델(LLM) 추론의 에너지 소비에 대한 대규모 측정 기반 연구를 수행함.
다양한 GPU 구성 및 모델 아키텍처를 대상으로 에너지 사용량을 정량화하고 분석함.
추론 에너지 소비를 예측하는 모델을 개발하고 브라우저 확장을 통해 환경적 영향을 알림.
본 논문 자체의 한계점은 명시되지 않음.
👍