본 논문은 대규모 언어 모델(LLM) 평가의 어려움과 기존 자동화된 벤치마크 방식의 한계(인간 평가와의 상관관계 부족)를 지적하며, 사용자 참여형 공개 평가장인 'LM arena'의 대안으로 에너지 소비량 정보를 포함한 새로운 평가장 'GEA(Generative Energy Arena)'를 제시합니다. GEA에서는 사용자가 두 모델의 응답을 비교하며 평가하는데, 각 모델의 에너지 소비량 정보를 함께 제공합니다. 초기 결과는 대부분의 질문에서 사용자가 에너지 소비량을 인지할 경우, 더 작고 에너지 효율적인 모델을 선호하는 경향을 보여줍니다. 이는 성능이 우수한 대규모 모델의 추가 비용과 에너지 소비가 사용자에게 인지되는 응답 품질 향상에는 기여하지 못함을 시사합니다.