[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference

Created by
  • Haebom

저자

Nidhal Jegham, Marwan Abdelatti, Lassad Elmoubarki, Abdeltawab Hendawi

개요

본 논문은 상용 데이터 센터에 배포된 최첨단 30개의 대규모 언어 모델(LLM)의 환경적 영향을 정량화하기 위한 새로운 인프라 인식 벤치마킹 프레임워크를 제시합니다. 공개 API 성능 데이터, 지역별 환경 배수치, 하드웨어 구성의 통계적 추론을 결합하여 프레임워크를 구축했습니다. 또한, 교차 효율성 데이터 봉투 분석(DEA)을 활용하여 환경 비용에 대한 성능을 기준으로 모델을 순위 매겼습니다. o3 및 DeepSeek-R1이 33Wh 이상의 에너지를 소비하는 가장 에너지 집약적인 모델로 나타났으며, 이는 GPT-4.1 nano 소비량의 70배가 넘습니다. 반면 Claude-3.7 Sonnet은 생태 효율성이 가장 높은 모델로 평가되었습니다. GPT-4o의 단일 짧은 쿼리 소비량은 0.42Wh에 불과하지만, 하루 7억 건의 쿼리로 확장하면 상당한 연간 환경 영향을 미칩니다. 이는 35,000가구의 미국 가정에 해당하는 전력 사용량, 120만 명의 연간 음용수 필요량에 해당하는 담수 증발량, 시카고 규모의 숲을 상쇄하는 데 필요한 탄소 배출량 등을 포함합니다. 이러한 결과는 AI가 더 저렴하고 빨라지고 있지만, 전 세계적인 채택은 불균형적인 자원 소비를 초래한다는 역설을 보여줍니다. 본 연구는 LLM 배포의 지속 가능성을 벤치마킹하기 위한 표준화되고 경험적으로 근거한 방법론을 제공하여 AI 개발 및 지속 가능성 표준의 미래 환경 책임에 대한 기반을 마련합니다.

시사점, 한계점

시사점:
LLM 추론의 환경적 영향을 정량화하는 표준화된 벤치마킹 프레임워크 제시.
에너지 소비량이 모델 간에 큰 차이가 있음을 보여줌 (o3, DeepSeek-R1 vs. GPT-4.1 nano).
LLM의 지속 가능성에 대한 환경적 책임의 중요성 강조.
AI의 확장성과 환경적 영향 사이의 상충 관계 제시.
LLM의 환경적 영향을 줄이기 위한 지속 가능성 표준 개발의 필요성 제기.
한계점:
분석에 사용된 데이터는 공개 API 데이터에 의존하며, 실제 데이터 센터 운영의 모든 측면을 반영하지 못할 수 있음.
지역별 환경 배수치의 정확성에 대한 검토 필요.
특정 하드웨어 구성에 대한 통계적 추론의 한계.
더욱 다양한 LLM과 배포 환경에 대한 연구가 필요.
👍