Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference

Created by
  • Haebom

저자

Nidhal Jegham, Marwen Abdelatti, Lassad Elmoubarki, Abdeltawab Hendawi

개요

본 논문은 상용 데이터 센터에 배포된 최첨단 대규모 언어 모델(LLM) 30개의 추론 단계에서 환경적 영향을 정량화하기 위한 새로운 인프라 인식 벤치마킹 프레임워크를 제시합니다. 공개 API 성능 데이터, 지역별 환경 배수치, 하드웨어 구성의 통계적 추론을 결합하여 모델의 성능 대비 환경 비용을 기준으로 순위를 매기는 교차 효율성 데이터 봉투 분석(DEA)을 활용합니다. 연구 결과, o3 및 DeepSeek-R1이 가장 에너지 집약적인 모델로 나타났으며, 긴 프롬프트당 33Wh 이상을 소비하여 GPT-4.1 nano보다 70배 이상 많은 에너지를 소비하는 것으로 밝혀졌습니다. 반면 Claude-3.7 Sonnet은 생태 효율성이 가장 높은 것으로 평가되었습니다. GPT-4o의 단일 짧은 쿼리는 0.43Wh를 소비하지만, 하루 7억 건의 쿼리로 확장하면 상당한 연간 환경 영향을 미칩니다. 이는 3만 5천 가구에 해당하는 전력 사용량, 120만 명의 연간 식수량에 해당하는 담수 증발량, 시카고 크기의 숲을 상쇄해야 하는 탄소 배출량 등을 포함합니다. 본 연구는 표준화되고 경험적으로 근거한 방법론을 제공하여 AI 개발 및 지속 가능성 표준에서 미래의 환경 책임성을 위한 기반을 마련합니다.

시사점, 한계점

시사점:
LLM 추론의 환경적 영향을 정량화하는 새로운 인프라 인식 벤치마킹 프레임워크 제시.
o3, DeepSeek-R1 모델의 높은 에너지 소비량과 Claude-3.7 Sonnet의 높은 생태 효율성 확인.
개별 쿼리의 효율성에도 불구하고, 글로벌 규모의 사용으로 인한 과도한 자원 소비 문제 제기.
AI 개발 및 지속 가능성 표준에서 환경 책임성을 위한 기반 마련.
한계점:
독점 모델 제외.
인프라 변동성 및 오버헤드 간과 가능성.
단순히 추론에만 집중, 훈련 단계의 환경 영향 고려 부족 가능성. (Although the abstract mentions training, the focus is clearly on inference).
👍